Christoph Pohl M.Sc. Prof. Dr. Peter Mandl Hochschule München & Isys Software GmbH

Transkript

1 Christoph Pohl M.Sc. Prof. Dr. Peter Mandl Hochschule München & Isys Software GmbH

2 Überblick Hintergrund der Arbeit Herausforderungen Beschreibung des Testmodells Vorstellung MapReduce Logdatenanalyse Anzahl unterscheidbarer Benutzer in Zeitintervall t Analyse durchschnittliche Anzahl der Requestziele pro unterscheidbaren Benutzer Realtimeanalyse ähnlicher Benutzerpfade ( Das könnte sie auch interessieren Funktion ) Conclusio

3 Hintergrund Herausforderungen Testmodell

4 Hintergrund Als Beispiel werden sequentielle Daten in Form von Bewegungsdaten einer Webseite verwendet. Große Datenvolumen bei Logdatenanalyse Unterschiedliche Auswerteziele Semantische und logische Beziehung zwischen Datensätzen Möglichkeit von paralleler Datenverarbeitung

5 Herausforderungen Datenvolumen im Terabytebereich Abhängigkeit zwischen Daten müssen evaluiert werden Daten müssen zum Teil Real Time ausgewertet werden Sequentielle Algorithmen müssen parallelisiert werden

6 Testmodell Zeitstempel, aufrufende IP-Adresse, Requestmethode, URL , , GET, Ein Logeintrag 𝑙 besteht aus einer Zeile. Die Sortierung von 𝑙𝑛,, 𝑙𝑛+𝑥 ist definiert durch 𝑡𝑙𝑛 < 𝑡𝑙𝑛+1 Eine IP-Adresse 𝑖0 identifiziert zu einem Zeitpunkt 𝑡0 einen Benutzer 𝑏0 Eine Session wird definiert durch die Abfolge 𝑡𝑛,, 𝑡𝑛+𝑥 bei gleichem 𝑖 Eines Session 𝑠0 wird begrenzt durch das Intervall 𝑡𝑛+1 𝑡𝑛 < 𝑡𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙 Eine Session ist somit solange gültig, solange der nachfolgende Request einer IP innerhalb des Intervall 𝑡𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙 liegt. Ein Requestziel 𝑟 ist eindeutig durch die Kombination von Methode 𝑟𝑚 und URL 𝑢 (z.b. get & url) Eine Anfrage hat nur einen Request

7 Testmodell Aufgaben Anzahl der unterscheidbaren Benutzer (Sessions) in Zeitraum t Durchschnittliche Anzahl der Requestzielaufrufe pro unterscheidbaren Benutzer. Doppelte Requestziele werden nicht berücksichtigt. Sortierte Anzeige von interessanten Seiten durch Analyse ähnlicher Besuchspfade. z.b. Benutzer mit ähnlichen Interessen habe auch diese Artikel angesehen

8

9 MapReduce Einführung Aufgaben: Parallelisierung von Berechnungen Clustering von Aufgaben Stabilität Beschrieben 2004 von Ghemawhat Eingesetzt bei google in ~ 7000 Applikationen

10 MapReduce Einführung Generischer Lösungsansatz Kernframework umfasst lediglich 500 Zeilen Quellcode Verwendbar für: Parallele Berechnungen Grep Indexierung Sortierung

11 MapReduce Überblick Schematischer Überblick

12 MapReduce Formal map map k 1, v 1 list k 2, v 2 Map<String,List<Integer>> dict = new void map (String[] words){ foreach(string word : words){ if(dict.contains(word){ dict[word].add(1); } } }

13 MapReduce Formal reduce reduce k 2, listv 2 list(v 2 ) Map<String,Integer> res = new void reduce(){ for(map.entry<string,list<integer>> line : dict){ Integer erg = 0; for(integer z : line.value){ erg += z; } res.put(line.key,erg); } }

14 MapReduce vereinfacht Hallo Welt Hallo Hallo ergibt beim mapping Map {Hallo, {1,1,1}},{Welt,{1}} Mapergebnis wird in reduce verarbeitet Reduce {Hallo, 3}, {Welt,1}

15 MapReduce vereinfacht im Cluster Hallo Welt Hallo Hallo Welt sagt Hallo Map {Hallo, {1,1,1}},{Welt,{1}} Map {Welt, {1}},{sagt,{1}},{Hallo,{1}} Reduce {Hallo, 3}, {Welt,1} reduce {Welt,1},{sagt,1},{Hallo,1} Map {Welt,{1,1}},{Hallo,{3,1}},{sagt{1,1}} Reduce {Welt,2},{Hallo,4},{sagt,1}

16 Berechnung von unterscheidbaren Benutzern in Zeitraum t

17 Logdatenanalyse Session / Zeit Aufgabenstellung: Anzahl unterscheidbarer Benutzer in Zeitintervall t Herausforderung: Gruppieren aller IP - Adressen Sortieren nach Zeit Trennen nach Sessions bei Zeitabstand > x

18 Logdatenanalyse Session / Zeit SQL - Way Gruppieren nach IP Unterteilung nach Sessions Zählen der Sessions Select time,ip group by ip teuer?? for(session sess : sessions){ sesscount++; Long time = 0; for(line line : sess.lines){ if(line.time time > intervall){ sesscount++; } time = line.time; } }. Parallel???

19 Logdatenanalyse Session / Zeit Map Reduce Way Aufteilen der Daten in chunks Abruf durch Clusterknoten Erstellen der Maps<ip,list<zeit>> Teilen in Session bei Anfügen Reduzieren der Teilergebnisse auf Sessionteilzahlen Mapping der Ergebnisse Reduzieren der Ergebnisse Ausgabe

20 Logdatenanalyse Session / Zeit Map Reduce Way Prinzipiell stellt der Map Reduce Weg nur eine Parallelisierung der group By Funktionalität dar Zusätzlich wird der Splitprozess schon in der Iteration vorgenommen Frameworkansatz von MapReduce ist generisch

21 Durchschnittliche Anzahl unterschiedlicher Requestziele bei unterscheidbaren Benutzern

22 Logdatenanalyse Session / Zeit / Requestziele im Durchschnitt Aufgabenstellung: Durchschnittliche Anzahl unterschiedlicher Requestziele bei unterscheidbaren Benutzern Herausforderung: Gruppieren aller IP - Adressen Sortieren nach Zeit Trennen nach Sessions bei Zeitabstand > x Zählen Requestziele pro Benutzer Eliminieren von Dupletten

23 Logdatenanalyse Session / Zeit / Req SQL Way Gruppieren nach IP Unterteilung nach Sessions Zählen der Sessions Eliminieren doppelter Requestziele pro Session Zählen Requestziele Durchschnitt berechnen

24 Logdatenanalyse Session / Zeit / Req Map Reduce Way Aufteilen der Daten in chunks Abruf durch Clusterknoten Erstellen der Maps<ip,list<zeit>> Teilen in Session bei Anfügen Erstellen Hashset Seiten Zählen Seiten / Session Reduzieren der Teilergebnisse auf Sessionteilzahlen Mapping der Ergebnisse Reduzieren der Ergebnisse Ausgabe

25 Logdatenanalyse Session / Zeit / Req Map Reduce Way Ähnliches Vorgehen wie bei SQL - Weg Zusätzlich wird der Splitprozess schon in der Iteration vorgenommen Frameworkansatz von MapReduce ist generisch Einfache Erweiterung des Algorithmus z.b. beliebteste Seiten Durchlauf kann mehrere Ergebnisse erzeugen

26 Sortierte Anzeige von interessanten Seiten durch Analyse ähnlicher Besuchspfade

27 Logdatenanalyse Häufigkeiten ähnlicher Bewegungspfade Aufgabenstellung: Sortierte Anzeige von interessanten Seiten durch Analyse ähnlicher Besuchspfade Das könnte Sie auch interessieren Herausforderung: Realtimeberechnung Näherungs und -statistische Analysen Erstellung situativ bedingter, nicht absolut ausdrückbarer Verknüpfungen

28 Logdatenanalyse Häufigkeiten ähnlicher Bewegungspfade Annahme: Benutzer die ähnliche Seiten angesehen haben, besitzen ähnliche Interessen Das Delta stellt die interessanten Seiten dar Zeitlich nahe aneinander liegende Seitenaufrufe haben einen höheren thematischen Zusammenhang als entfernte Seitenaufrufe

29 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Suchen ähnlicher Pfade Bewertung und Sortierung Extraktion eines Delta Reduzierung der Delta

30 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Vorbereitung Erstellung eines Sessionindex wie in vorangegangenen Beispielen Suchindex Erstellung eines reversen Index {URL,{IP1,IP2,IP3 }} Dieser Index ist der zentrale Suchindex für die Verknüpfung zum eigenen Bewegungspfad Beide Indizes können periodisch erstellt werden

31 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Übereinstimmungen Ergebnis: {IP1,IP1,IP2,IP3,IP4, IP1 } Alternativ können auch Indizes verwendet werden um Sessions ab zu bilden, Schwellwerte können das Ergebnis Verfeinern. Das Ergebnis sind Adressen mit Übereinstimmungen zum eigenen Pfad

32 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Übereinstimmungen Diese Liste wird mit dem Sessionindex weiter verarbeitet Mit MapReduce können nun die Bewegungspfade dieser IP-Adressen abgerufen werden. Ergebnis: {Anzahl, IP, {url1,url2,url3 }} Die Anzahl ist die Anzahl der Übereinstimmungen

33 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Deltaberechnung Es wird davon ausgegangen dass ein Delta, also eine URL die nahe am eigenen Profil liegt relevanter ist, als eine entfernte. Eigen: {url1,url2,url3,url4 url12, url20} Fremd: {url1,url3,delta1,url4,url2 } hohe Relevanz Fremd: {url1,url3,url12,url20,,delta1} niedrigere Relevanz

34 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Deltaberechnung

35 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Deltaberechnung Ergebnis:{delta1,Gewichtung}{delta2,gewichtung}

36 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Deltaberechnung Es wird davon ausgegangen, dass Deltawerte die häufig geklickt werden relevanter sind, als weniger häufig genutzte Deltalinks. Die Verbindung aus der Abstandsgewichtung und einer Häufigkeitsgewichtung ergibt die Gesamtgewichtung. Diese kann wiederum parallel mit Map Reduce berechnet werden.

37 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Deltabewertung Iteration über gewichtete Delta Hinzufügen von Delta zu Map<Delta,List<Gewicht> Ergebnis: {delta1,gewicht} {delta2,gewicht} Iteration der Ergebnismap Reduktion der Gewichte auf Map<Delta,Gesamtgewicht> Das Ergebnis ist sortiert Sortieren der Liste nach Gewicht

38 Häufigkeiten ähnlicher Bewegungspfade Zusammenfassung Jeder Zwischenschritt kann parallel durchgeführt werden Lastverteilung kann dynamisch durch Clustervergrößerung erfolgen Abhängigkeiten zwischen einzelnen Knoten sind minimal Komplexe Berechnungen können mit einem generischen Framework durchgeführt werden.

39 Technische Möglichkeiten Zusammenfassung

40 Technische Möglichkeiten Verwendung von Hadoop (Verteiltes Dateisystem, BigTable und Mapreduce Framework) Hervorgegangen von Yahoo, verwendet u.a. von Facebook Verwaltung von Daten im Petabytebereich FaceBook 21 PB Seit 2008 Top Level Projekt bei Apache

41 Conclusio und offene Fragen Parallelisierung und Skalierung ist mit Map Reduce ein durchführbarer Weg Konkrete Herausforderungen stellen die Interprozesskommunikation und die Abstimmung der Cluster Noch Fragen?