Tracking ohne Cookies Überwachung von Internetnutzern anhand ihrer DNS-Anfragen Dr. Dominik Herrmann Folien zum Download: http://dhgo.to/dnstracking-slides
Heute üblich: - Tracking mit Cookies - Browser-Fingerprinting - Device-Fingerprinting DKV.de Doubleclick-Cookie: Adition Doubleclick Jumpzone id=22f4970d03020055 t=1424842858 et=730 cs=002213fd48adae8965 e2b82b79 Spiegel Online 2
Browser- Fingerprinting Your browser fingerprint appears to be unique among the 5,057,041 tested so far. https://panopticlick.eff.org/ P Eckersley (2010): How unique is your web browser? 3
Device Fingerprinting K Mowery S Shacham (2012): Pixel Perfect: Fingerprinting Canvas in HTML5 4
Internetwirtschaft hat großes Interesse an Tracking aktuelle Tracking-Techniken sind unzuverlässig (und beobachtbar) 5
Gliederung 1. Bisher verwendete Tracking-Techniken 2. Überwachung anhand von DNS-Anfragen 3. Schutzmechanismen Internetwirtschaft hat großes Interesse an Tracking aktuelle Tracking-Techniken sind unzuverlässig (und beobachtbar) 6
Das Domain Name System löst Domains in IP-Adressen auf. bundestag.de? Client Browser Internetanbieter (T-Online)? 1 2 217.79.215.140 DNS-Server Webserver Deutscher Bundestag Vertraulichkeit? Brauchen wir nicht. 17-Nov-2014 10:23:49.770 189.11.9.16 #15619: query: www.google.de IN A + 17-Nov-2014 10:23:51.622 42.81.144.1 #12191: query: wikipedia.org IN A + 17-Nov-2014 10:23:52.051 134.9.15.51 #13170: query: www.spiegel.de IN A + 7
»Angreifer«217.79.215.140 217.79.215.140 bundestag.de? DNS-Server DNS-Server bundestag.de? Client? 1 Google 1 Browser? Client Browser Internetanbieter (T-Online) 2 Webserver Deutscher Bundestag Webserver Deutscher Bundestag 2 Internetanbieter (T-Online) oder doch? 8
Umgehung von DNS-Sperren Google Trends für dns 8.8.8.8 Performanz & Zuverlässigkeit Türkei 2010 2011 2012 2013 2014 Interesse Google Trends am Suchbegriff für Google dns 8.8.8.8 DNS Türkei Deutschland 2010 2011 2012 2013 2014 Google DNS: über 150 Mrd. Anfragen pro Tag (2013) Disputation Dr. Herrmann 9
Zwei Teilprobleme: Ermittlung der besuchten Webseiten Verkettung von Sitzungen 10
Herausforderung 1: DNS-Server sieht nur Domains, jedoch keine URLs de.wikipedia.org/wiki/alkoholkrankheit 11
Herausforderung 2: Domains korrespondieren nicht mit besuchten Seiten de.wikipedia.org bits.wikimedia.org meta.wikimedia.org counsellingresource.com upload.wikimedia.org www.izb.fraunhofer.de www.spiegel.de www.stadt-und-gemeinde.de www.biospektrum.de w210.ub.uni-tuebingen.de www.uni-muenster.de ec.europa.eu www.klinik-dr-fontheim.de www.versorgungsleitlinien.de de.wikiquote.org drogenbeauftragte.de www.sucht-info.ch www.aafp.org www.thieme-connect.com www.kenn-dein-limit.de www.casusconsult.nl www.hta.ac.uk www.stern.de whqlibdoc.who.int 12
S Krishnan and F Monrose (2010): DNS prefetching and its privacy implications: When good things go bad de.wikipedia.org bits.wikimedia.org meta.wikimedia.org counsellingresource.com upload.wikimedia.org www.izb.fraunhofer.de www.spiegel.de Abrufmuster für http://de.wikipedia.org/wiki/alkoholkrankheit www.stadt-und-gemeinde.de www.klinik-dr-fontheim.de www.versorgungsleitlinien.de de.wikiquote.org drogenbeauftragte.de www.sucht-info.ch www.aafp.org www.thieme-connect.com www.kenn-dein-limit.de www.biospektrum.de www.casusconsult.nl w210.ub.uni-tuebingen.de Kann ein DNS-Server (nicht-)besuchte www.hta.ac.uk Webseiten www.uni-muenster.de anhand charakteristischer www.stern.de Abrufmuster erkennen? ec.europa.eu whqlibdoc.who.int 13
1. Abruf von Webseiten Empirische Untersuchung 2. Aufzeichnen der DNS-Abrufmusters 3. Bestimmung der k-identifizierbarkeit WIKITOP WIKIRAND 5 000 Seiten 5 000 Seiten N 78 4 k = 1 > 99 % 80 % Seiten mit einzigartigem Abrufmuster k 5 > 99 % 94 % Seiten mit Abrufmustern, die jeweils höchstens auf 5 Seiten auftreten 14
Empirische Untersuchung Ermittlung der genauen URL WIKITOP WIKIRAND HEISE 5 000 Seiten 5 000 Seiten 6 283 Newsseiten N 78 4 2 k = 1 > 99 % 80 % 63 % k 5 > 99 % 94 % 76 % 15
Empirische Untersuchung Ermittlung der genauen URL WIKITOP WIKIRAND HEISE ALEXA 5 000 Seiten 5 000 Seiten 6 283 Newsseiten 100 000 Homepages N 78 4 2 8 k = 1 > 99 % 80 % 63 % > 99,9 % k 5 > 99 % 94 % 76 % > 99,9 % 16
Zwei Teilprobleme: Ermittlung der besuchten Webseiten genauer als gedacht Verkettung von Sitzungen 17
Herausforderung: Beobachtung von Nutzern mit täglich wechselnden IP-Adressen bundestag.de bahn.de focus.de airbus.com 88.21.45.90? = 88.21.45.90 bahn.de google.it bild.de twitter.com facebook.com heise.de www.hamburg.de bild.de www.microsoft.com 89.56.101.33 89.13.10.81 torproject.com eltern.de porsche.de airbus.com cdu-berlin.de kadewe.com google.de airberlin.de 89.171.34.7 89.95.5.12 www.youtube.com ebay.de m.bahn.de arstechnica.com www.bmw.de formula1.com motor-talk.de mammut.com 133.231.21.47 90.4.57.21 springerlink.com gulli.com torproject.com reddit.com gestern heute 18
Idee: Nutzer anhand charakteristischer Verhaltensmuster wiedererkennen bundestag.de bahn.de focus.de airbus.com 88.21.45.90 88.21.45.90 bahn.de google.it bild.de twitter.com facebook.com heise.de www.hamburg.de bild.de www.microsoft.com 89.56.101.33 89.13.10.81 torproject.com eltern.de porsche.de airbus.com cdu-berlin.de kadewe.com google.de airberlin.de 89.171.34.7 89.95.5.12 www.youtube.com ebay.de m.bahn.de arstechnica.com www.bmw.de formula1.com motor-talk.de mammut.com 133.231.21.47 90.4.57.21 springerlink.com gulli.com torproject.com reddit.com gestern heute 19
Ausnutzung menschlicher Eigenschaften individuelle Vorlieben tägliche Routine Trainieren eines Klassifikators zur Wiedererkennung Trainingssitzungen zu klassifizierende Sitzungen bundestag.de bahn.de focus.de airbus.com 88.21.45.90 88.21.45.90 89.56.101.33 89.13.10.81 89.171.34.7 89.95.5.12 133.231.21.47 90.4.57.21 gestern heute 20
Verhaltensbasierte Verkettung einzelner Sitzungen im Open-World-Szenario noch nicht erforscht Reicht eine Traingssitzung? Erreichbare Genauigkeit bei großen, fluktuierenden Nutzergruppen? Closed-World-Untersuchung von Yang (2010) je 200 Sitzungen Nutzer 1 Nutzer 1 je 1 Sitzung Nutzer 2 Nutzer 2 Nutzer 100 Nutzer 100 62% Genauigkeit 21
Konstruktion des Verkettungsverfahrens focus.de airbus.com bahn.de 0 0 1 0 0 2 0 0 1 0 Naive-Bayes-Klassifikator u.a. n-dimensionale Merkmalsvektoren bundestag.de bahn.de focus.de airbus.com Nutzer 1 Nutzer 1 Nutzer 2 Nutzer 2 Nutzer n Nutzer n gestern heute 22
Funktionsweise des verwendeten 1NN-Klassifikators focus.de airbus.com bahn.de 0 0 1 0 0 2 0 0 1 0 cos = 0,86 0 0 0 0 0 3 1 0 1 0 0 0 0 2 0 1 0 0 9 0 cos = 0,43 gestern heute 23
1. Implementierung mit MapReduce 2. Erhebung eines DNS-Datensatzes 3. Experimente im Open-World-Szenario Empirische Untersuchung Datensatz 2M 2 Monate 3862 Nutzer 5 Mio. Domains Beobachtung: Fehlentscheidungen wegen Nutzerfluktuation 1 1* 2 3 3* gestern 4* heute 24
Empirische Untersuchung Standardverfahren 75 % Genauigkeit nach Optimierung 86 % Genauigkeit Optimierung: Ermittlung der ähnlichsten Sitzung 1 1* 2 3 3* gestern 4* heute 25
Verkettung erweist sich als robust gelingt auch unter widrigen Umständen nur N populärste (statt alle) Domains 62 % 76 % Training vor x (statt 1) Tagen 86 % 12.015 76 % Anzahl der Nutzer (statt 3862) 26
DNS-Anbieter überraschend genau gelöschte Cookies wiederherstellbar Neue Überwachungsmöglichkeiten durch verhaltensbasierte Verkettung Tracking- und Profiling-Dienste Tracking völlig ohne Cookies Verkettung rein passiv, also nicht erkennbar Bedrohung für die informationelle Selbstbestimmung 27
Gliederung 1. Bisher verwendete Tracking-Techniken 2. Überwachung anhand von DNS-Anfragen 3. Schutzmechanismen 28
Mögliche Ziele: Beobachtung durch DNS-Anbieter verhindern nur die Verkettung verhindern 29
Schutz der Identität des Nutzers Verbergen der wahren Interessen Range Querys langsam aufwändig (und unsicher) existierende Ansätze für DNS ungeeignet 30
Mögliche Ziele: Beobachtung durch DNS-Anbieter verhindern wäre möglich, aber aufwändig nur die Verkettung verhindern wäre zum Schutz vor Tracking ausreichend 31
Sitzungsdauer 5 min 31 % 10 min 34 % IP-Adresse häufig wechseln heute: Komforteinbußen 1 h 55 % 6 h 70 % Chance für Internet-Provider»Privacy by Default«mit IPv6 24 h 86 % 7 Tage 97 % 32
Tracking ohne Cookies Überwachung von Internetnutzern anhand ihrer DNS-Anfragen umfangreicher und genauer als zu erwarten wäre; unbemerktes Tracking anhand des Nutzerverhaltens; vollständiger Schutz vor Beobachtung durch DNS aufwändig; Schutz vor Tracking durch häufigen Adresswechsel wird mit IPv6 komfortabel. Generalisierbarkeit der Ergebnisse? Konkrete Handlungsempfehlungen? Weitere Experimente und Future Work? http://dhgo.to/dnstracking-slides 33
Backup 34
Idee von DNSMIX populäre DNS-Einträge automatisch an alle Nutzer senden Kostet das nicht viel zu viel Bandbreite? DNSMIX Push-Dienst Client Zwischenspeicher DNS-Server berlin.de Client Liste populärer Domains DNS-Server google.com Client Laufende Überprüfung DNS-Server finanzen.net MIX MIX MIX 35
Anfragen von 2082 Nutzern Empirische Untersuchung Pushen von 10.000 populären Domains Auflösung von 84 % der Anfragen unbeobachtbar und unmittelbar DNSMIX Push-Dienst 352 MB/Tag Client 290 KB initial Zwischenspeicher alle 24 h DNS-Server berlin.de Client 0,8 KB/s Liste populärer Domains alle 5 min DNS-Server google.com Client 0,8 KB/s Laufende Überprüfung alle 24 h je nach TTL DNS-Server finanzen.net MIX MIX Emulierte Latenz: 80 ms 20 ms 20 ms MIX Resultat: 171 ms je nach Server 36