Christoph Pohl M.Sc. Prof. Dr. Peter Mandl Hochschule München & Isys Software GmbH
|
|
- Leon Lorentz
- vor 7 Jahren
- Abrufe
Transkript
1 Christoph Pohl M.Sc. Prof. Dr. Peter Mandl Hochschule München & Isys Software GmbH
2 Überblick Hintergrund der Arbeit Herausforderungen Beschreibung des Testmodells Vorstellung MapReduce Logdatenanalyse Anzahl unterscheidbarer Benutzer in Zeitintervall t Analyse durchschnittliche Anzahl der Requestziele pro unterscheidbaren Benutzer Realtimeanalyse ähnlicher Benutzerpfade ( Das könnte sie auch interessieren Funktion ) Conclusio
3 Hintergrund Herausforderungen Testmodell
4 Hintergrund Als Beispiel werden sequentielle Daten in Form von Bewegungsdaten einer Webseite verwendet. Große Datenvolumen bei Logdatenanalyse Unterschiedliche Auswerteziele Semantische und logische Beziehung zwischen Datensätzen Möglichkeit von paralleler Datenverarbeitung
5 Herausforderungen Datenvolumen im Terabytebereich Abhängigkeit zwischen Daten müssen evaluiert werden Daten müssen zum Teil Real Time ausgewertet werden Sequentielle Algorithmen müssen parallelisiert werden
6 Testmodell Zeitstempel, aufrufende IP-Adresse, Requestmethode, URL , , GET, Ein Logeintrag 𝑙 besteht aus einer Zeile. Die Sortierung von 𝑙𝑛,, 𝑙𝑛+𝑥 ist definiert durch 𝑡𝑙𝑛 < 𝑡𝑙𝑛+1 Eine IP-Adresse 𝑖0 identifiziert zu einem Zeitpunkt 𝑡0 einen Benutzer 𝑏0 Eine Session wird definiert durch die Abfolge 𝑡𝑛,, 𝑡𝑛+𝑥 bei gleichem 𝑖 Eines Session 𝑠0 wird begrenzt durch das Intervall 𝑡𝑛+1 𝑡𝑛 < 𝑡𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙 Eine Session ist somit solange gültig, solange der nachfolgende Request einer IP innerhalb des Intervall 𝑡𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙 liegt. Ein Requestziel 𝑟 ist eindeutig durch die Kombination von Methode 𝑟𝑚 und URL 𝑢 (z.b. get & url) Eine Anfrage hat nur einen Request
7 Testmodell Aufgaben Anzahl der unterscheidbaren Benutzer (Sessions) in Zeitraum t Durchschnittliche Anzahl der Requestzielaufrufe pro unterscheidbaren Benutzer. Doppelte Requestziele werden nicht berücksichtigt. Sortierte Anzeige von interessanten Seiten durch Analyse ähnlicher Besuchspfade. z.b. Benutzer mit ähnlichen Interessen habe auch diese Artikel angesehen
8
9 MapReduce Einführung Aufgaben: Parallelisierung von Berechnungen Clustering von Aufgaben Stabilität Beschrieben 2004 von Ghemawhat Eingesetzt bei google in ~ 7000 Applikationen
10 MapReduce Einführung Generischer Lösungsansatz Kernframework umfasst lediglich 500 Zeilen Quellcode Verwendbar für: Parallele Berechnungen Grep Indexierung Sortierung
11 MapReduce Überblick Schematischer Überblick
12 MapReduce Formal map map k 1, v 1 list k 2, v 2 Map<String,List<Integer>> dict = new void map (String[] words){ foreach(string word : words){ if(dict.contains(word){ dict[word].add(1); } } }
13 MapReduce Formal reduce reduce k 2, listv 2 list(v 2 ) Map<String,Integer> res = new void reduce(){ for(map.entry<string,list<integer>> line : dict){ Integer erg = 0; for(integer z : line.value){ erg += z; } res.put(line.key,erg); } }
14 MapReduce vereinfacht Hallo Welt Hallo Hallo ergibt beim mapping Map {Hallo, {1,1,1}},{Welt,{1}} Mapergebnis wird in reduce verarbeitet Reduce {Hallo, 3}, {Welt,1}
15 MapReduce vereinfacht im Cluster Hallo Welt Hallo Hallo Welt sagt Hallo Map {Hallo, {1,1,1}},{Welt,{1}} Map {Welt, {1}},{sagt,{1}},{Hallo,{1}} Reduce {Hallo, 3}, {Welt,1} reduce {Welt,1},{sagt,1},{Hallo,1} Map {Welt,{1,1}},{Hallo,{3,1}},{sagt{1,1}} Reduce {Welt,2},{Hallo,4},{sagt,1}
16 Berechnung von unterscheidbaren Benutzern in Zeitraum t
17 Logdatenanalyse Session / Zeit Aufgabenstellung: Anzahl unterscheidbarer Benutzer in Zeitintervall t Herausforderung: Gruppieren aller IP - Adressen Sortieren nach Zeit Trennen nach Sessions bei Zeitabstand > x
18 Logdatenanalyse Session / Zeit SQL - Way Gruppieren nach IP Unterteilung nach Sessions Zählen der Sessions Select time,ip group by ip teuer?? for(session sess : sessions){ sesscount++; Long time = 0; for(line line : sess.lines){ if(line.time time > intervall){ sesscount++; } time = line.time; } }. Parallel???
19 Logdatenanalyse Session / Zeit Map Reduce Way Aufteilen der Daten in chunks Abruf durch Clusterknoten Erstellen der Maps<ip,list<zeit>> Teilen in Session bei Anfügen Reduzieren der Teilergebnisse auf Sessionteilzahlen Mapping der Ergebnisse Reduzieren der Ergebnisse Ausgabe
20 Logdatenanalyse Session / Zeit Map Reduce Way Prinzipiell stellt der Map Reduce Weg nur eine Parallelisierung der group By Funktionalität dar Zusätzlich wird der Splitprozess schon in der Iteration vorgenommen Frameworkansatz von MapReduce ist generisch
21 Durchschnittliche Anzahl unterschiedlicher Requestziele bei unterscheidbaren Benutzern
22 Logdatenanalyse Session / Zeit / Requestziele im Durchschnitt Aufgabenstellung: Durchschnittliche Anzahl unterschiedlicher Requestziele bei unterscheidbaren Benutzern Herausforderung: Gruppieren aller IP - Adressen Sortieren nach Zeit Trennen nach Sessions bei Zeitabstand > x Zählen Requestziele pro Benutzer Eliminieren von Dupletten
23 Logdatenanalyse Session / Zeit / Req SQL Way Gruppieren nach IP Unterteilung nach Sessions Zählen der Sessions Eliminieren doppelter Requestziele pro Session Zählen Requestziele Durchschnitt berechnen
24 Logdatenanalyse Session / Zeit / Req Map Reduce Way Aufteilen der Daten in chunks Abruf durch Clusterknoten Erstellen der Maps<ip,list<zeit>> Teilen in Session bei Anfügen Erstellen Hashset Seiten Zählen Seiten / Session Reduzieren der Teilergebnisse auf Sessionteilzahlen Mapping der Ergebnisse Reduzieren der Ergebnisse Ausgabe
25 Logdatenanalyse Session / Zeit / Req Map Reduce Way Ähnliches Vorgehen wie bei SQL - Weg Zusätzlich wird der Splitprozess schon in der Iteration vorgenommen Frameworkansatz von MapReduce ist generisch Einfache Erweiterung des Algorithmus z.b. beliebteste Seiten Durchlauf kann mehrere Ergebnisse erzeugen
26 Sortierte Anzeige von interessanten Seiten durch Analyse ähnlicher Besuchspfade
27 Logdatenanalyse Häufigkeiten ähnlicher Bewegungspfade Aufgabenstellung: Sortierte Anzeige von interessanten Seiten durch Analyse ähnlicher Besuchspfade Das könnte Sie auch interessieren Herausforderung: Realtimeberechnung Näherungs und -statistische Analysen Erstellung situativ bedingter, nicht absolut ausdrückbarer Verknüpfungen
28 Logdatenanalyse Häufigkeiten ähnlicher Bewegungspfade Annahme: Benutzer die ähnliche Seiten angesehen haben, besitzen ähnliche Interessen Das Delta stellt die interessanten Seiten dar Zeitlich nahe aneinander liegende Seitenaufrufe haben einen höheren thematischen Zusammenhang als entfernte Seitenaufrufe
29 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Suchen ähnlicher Pfade Bewertung und Sortierung Extraktion eines Delta Reduzierung der Delta
30 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Vorbereitung Erstellung eines Sessionindex wie in vorangegangenen Beispielen Suchindex Erstellung eines reversen Index {URL,{IP1,IP2,IP3 }} Dieser Index ist der zentrale Suchindex für die Verknüpfung zum eigenen Bewegungspfad Beide Indizes können periodisch erstellt werden
31 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Übereinstimmungen Ergebnis: {IP1,IP1,IP2,IP3,IP4, IP1 } Alternativ können auch Indizes verwendet werden um Sessions ab zu bilden, Schwellwerte können das Ergebnis Verfeinern. Das Ergebnis sind Adressen mit Übereinstimmungen zum eigenen Pfad
32 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Übereinstimmungen Diese Liste wird mit dem Sessionindex weiter verarbeitet Mit MapReduce können nun die Bewegungspfade dieser IP-Adressen abgerufen werden. Ergebnis: {Anzahl, IP, {url1,url2,url3 }} Die Anzahl ist die Anzahl der Übereinstimmungen
33 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Deltaberechnung Es wird davon ausgegangen dass ein Delta, also eine URL die nahe am eigenen Profil liegt relevanter ist, als eine entfernte. Eigen: {url1,url2,url3,url4 url12, url20} Fremd: {url1,url3,delta1,url4,url2 } hohe Relevanz Fremd: {url1,url3,url12,url20,,delta1} niedrigere Relevanz
34 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Deltaberechnung
35 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Deltaberechnung Ergebnis:{delta1,Gewichtung}{delta2,gewichtung}
36 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Deltaberechnung Es wird davon ausgegangen, dass Deltawerte die häufig geklickt werden relevanter sind, als weniger häufig genutzte Deltalinks. Die Verbindung aus der Abstandsgewichtung und einer Häufigkeitsgewichtung ergibt die Gesamtgewichtung. Diese kann wiederum parallel mit Map Reduce berechnet werden.
37 Häufigkeiten ähnlicher Bewegungspfade Map Reduce Way Deltabewertung Iteration über gewichtete Delta Hinzufügen von Delta zu Map<Delta,List<Gewicht> Ergebnis: {delta1,gewicht} {delta2,gewicht} Iteration der Ergebnismap Reduktion der Gewichte auf Map<Delta,Gesamtgewicht> Das Ergebnis ist sortiert Sortieren der Liste nach Gewicht
38 Häufigkeiten ähnlicher Bewegungspfade Zusammenfassung Jeder Zwischenschritt kann parallel durchgeführt werden Lastverteilung kann dynamisch durch Clustervergrößerung erfolgen Abhängigkeiten zwischen einzelnen Knoten sind minimal Komplexe Berechnungen können mit einem generischen Framework durchgeführt werden.
39 Technische Möglichkeiten Zusammenfassung
40 Technische Möglichkeiten Verwendung von Hadoop (Verteiltes Dateisystem, BigTable und Mapreduce Framework) Hervorgegangen von Yahoo, verwendet u.a. von Facebook Verwaltung von Daten im Petabytebereich FaceBook 21 PB Seit 2008 Top Level Projekt bei Apache
41 Conclusio und offene Fragen Parallelisierung und Skalierung ist mit Map Reduce ein durchführbarer Weg Konkrete Herausforderungen stellen die Interprozesskommunikation und die Abstimmung der Cluster Noch Fragen?
Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes
Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)
MehrISU 1. Ue_08/02_Datenbanken/SQL. 08 Datenbanken. Übung. SQL Einführung. Eckbert Jankowski. www.iit.tu-cottbus.de
08 Datenbanken Übung SQL Einführung Eckbert Jankowski www.iit.tu-cottbus.de Datenmodell (Wiederholung, Zusammenfassung) Objekte und deren Eigenschaften definieren Beziehungen zwischen den Objekten erkennen/definieren
MehrApache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org
Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software
MehrNeue Ansätze der Softwarequalitätssicherung
Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik
MehrApache HBase. A BigTable Column Store on top of Hadoop
Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,
MehrData Mining in der Cloud
Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur
MehrTutorübung zur Vorlesung Grundlagen Rechnernetze und Verteilte Systeme Übungsblatt 12 (8. Juli 12. Juli 2013)
Technische Universität München Lehrstuhl Informatik VIII Prof. Dr.-Ing. Georg Carle Dipl.-Ing. Stephan Günther, M.Sc. Nadine Herold, M.Sc. Dipl.-Inf. Stephan Posselt Tutorübung zur Vorlesung Grundlagen
MehrBig Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover
Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:
MehrDatenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim
Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com
MehrAufgaben zu Tabellenanalyse mit SQL
Aufgaben zu Tabellenanalyse mit SQL Die Tabelle unten enthält die Arbeitsaufträge für ein Team von Software Entwicklern. Jede Zeile entspricht einem Arbeitsauftrag (hier ohne die Beschreibung des Auftrages
MehrEntwurf von Algorithmen - Kontrollstrukturen
Entwurf von Algorithmen - Kontrollstrukturen Eine wichtige Phase in der Entwicklung von Computerprogrammen ist der Entwurf von Algorithmen. Dieser Arbeitsschritt vor dem Schreiben des Programmes in einer
MehrK assa Buch. Klick zeigt formatierten Inhalt an. Kassa Buch KassaBuch.docx Seite 1 von 7
Nach dem Öffnen: Anzeige aller Buchungen in der Tabelle. Auswahl der Bankkonten (Filtern) Filtern von Datensätzen Platzhalter * und/oder % aller Zeichen sind möglich. TIPP: Ohne Übertrag von Vorjahr: Klick
MehrMapReduce in der Praxis
MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation
MehrGPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop
am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten
MehrOtto-von-Guericke-Universit tmagdeburg Institutf rtechnischeundbetrieblicheinformationssysteme Fakult tf rinformatik Diplomarbeit VergleichendeAnalysevonAnfragesprachenin Multimedia-Datenbanken MarcoPaskamp
MehrData Mining und Machine Learning
Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende
MehrHadoop. Simon Prewo. Simon Prewo
Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert
MehrMapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce
MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:
MehrWide Column Stores. Felix Bruckner Mannheim, 15.06.2012
Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing
MehrInformix Seminarwoche
Sehr geehrte Damen und Herren, In der KW48 planen wir eine Informix Seminarwoche mit drei aktuellen Themenbereichen: Backup and Restore, SQL-Optimierung und TimeSeries Data. Mit Backup and Restore möchten
MehrEinführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer
Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum
MehrBäume, Suchbäume und Hash-Tabellen
Im folgenden Fokus auf Datenstrukturen, welche den assoziativen Zugriff (über einen bestimmten Wert als Suchkriterium) optimieren Bäume: Abbildung bzw. Vorberechnung von Entscheidungen während der Suche
MehrRechtliche Betrachtung des URL-Hijacking
RECHTSANWALT DR. MARTIN BAHR Rechtliche Betrachtung des URL-Hijacking!!! - Seite 2 - Rechtsanwalt Dr. Martin Bahr Rechtliche Betrachtung des URL-Hijacking Vorwort: Das Phänomen des URL-Hijackings ist in
MehrOnline Guide. Inhaltsverzeichnis
Inhaltsverzeichnis 1. Der Einstieg in unser System 2 1.1. Die Homepage 2 1.2. Der Anmeldevorgang 2 2. Hilfe 3 3. smstan 3 4. Transaktions-Passwort 3 6. Kontoinformation 4 7. Positions bersicht 5 7.1. Auftragserteilung
MehrANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik
ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten
MehrInstitut fu r Informatik
Technische Universita t Mu nchen Institut fu r Informatik Lehrstuhl fu r Bioinformatik Einfu hrung in die Programmierung fu r Bioinformatiker Prof. B. Rost, L. Richter WS 2016/17 Aufgabenblatt 2 31.10.2016
MehrInverted Files for Text Search Engines
Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung
Mehr!"#$"%&'()*$+()',!-+.'/',
Soziotechnische Informationssysteme 5. Facebook, Google+ u.ä. Inhalte Historisches Relevanz Relevante Technologien Anwendungsarchitekturen 4(5,12316,7'.'0,!.80/6,9*$:'0+$.;.,&0$'0, 3, Historisches Facebook
MehrEXASOL Anwendertreffen 2012
EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2
MehrSeminar Cloud Data Management WS09/10. Tabelle1 Tabelle2
Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es
MehrAPACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER
APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied
MehrPerzentile mit Hadoop ermitteln
Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrBest Execution Policy
Anhang 16 g Best Execution Policy Best Execution Policy Stand: M rz 2016 Seite 1 von 6 Inhaltsverzeichnis 1. Zielsetzung... 3 2. Anwendungsbereich... 3 3. Sicherstellung von bestm glicher Auftragsausf
MehrC# Shortcut. Programmierung im.net-framework mit der C# Beta 2. Bearbeitet von Patrick A. Lorenz
C# Shortcut Programmierung im.net-framework mit der C# Beta 2 Bearbeitet von Patrick A. Lorenz 1. Auflage 2001. Taschenbuch. 296 S. Paperback ISBN 978 3 446 21959 5 Format (B x L): 16,8 x 24 cm Gewicht:
MehrErweiterung der Selektionen
Erweiterung der Selektionen 1. Freie Sortierungsdefinition mit bis zu drei Feldern für Selektionen 2. Freie 50 Artikel- und Adresselektionen 3. Selektionsfelder gruppieren 4. Erweiterte Feldtypen für Selektionsfelder
MehrEinführung in Hadoop
Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian
MehrMapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012
MapReduce Vereinfachte Datenverarbeitung in großen Rechnerverbünden Igor Marijanovic 794894 Fachvortrag WAR 19.12.2012 Beuth Hochschule für Technik Berlin Inhalt Einleitung Hauptteil Abschluss MapReduce
MehrPeter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr
Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit
MehrDrafting behind Akamai
Drafting behind Akamai Thomas Günther Seminar Internet Routing TU Berlin WS 2007/08 basierend auf der gleichnamigen Arbeit von A. Su, A. Kuzmanovic, D. Choffnes und F. Bustamante 1 Motivation Overlay Netzwerke
MehrVery simple methods for all pairs network flow analysis
Very simple methods for all pairs network flow analysis Tobias Ludes 02.07.07 Inhalt Einführung Algorithmen Modifikation der Gomory-Hu Methode Einführung Nach Gomory-Hu nur n-1 Netzwerk-Fluss- Berechnungen
MehrDatenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de
Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de , NoSQL source:dilbert.com Inhalte der nächsten Vorlesungen ˆ Methoden große Datenmengen
Mehrriskkv Scorenalyse riskkv Scoring Seite 1 von 9
riskkv Scorenalyse riskkv Scoring Seite 1 von 9 Das Modul dient der flexiblen Erstellung, Auswertung und Verwendung von Scores. Durch vordefinierte Templates können in einer Einklicklösung bspw. versichertenbezogene
MehrJAVA KURS COLLECTION
JAVA KURS COLLECTION COLLECTIONS Christa Schneider 2 COLLECTION Enthält als Basis-Interface grundlegende Methoden zur Arbeit mit Collections Methode int size() boolean isempty() boolean contains (Object)
MehrBig Data in der Forschung
Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die
MehrUniversität Karlsruhe (TH)
Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 ZPL Prof. Dr. Walter F. Tichy Dr. Victor Pankratius Ali Jannesari Agenda 1. ZPL Überblick 2. Konzepte von ZPL Regionen, Region Specifiers
MehrGeneralisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE
Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de
MehrSQL: Abfragen für einzelne Tabellen
Musterlösungen zu LOTS SQL: Abfragen für einzelne Tabellen Die Aufgaben lösen Sie mit dem SQL-Training-Tool LOTS der Universität Leipzig: http://lots.uni-leipzig.de:8080/sql-training/ Wir betrachten für
MehrWeb-Testen mit JUnit und HttpUnit. Kai Schmitz-Hofbauer Lehrstuhl für Software-Technik Ruhr-Universität Bochum
1 Web-Testen mit JUnit und HttpUnit Kai Schmitz-Hofbauer Lehrstuhl für Software-Technik Ruhr-Universität Bochum 2 Inhalt Entwicklertests in der Praxis Unit-Testing JUnit HttpUnit Praktisches Beispiel Bewertung
MehrSocial Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG
Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG DB Fernverkehr AG Dr.-Ing. Axel Schulz, Dr. Matthias Platho P.FMB 2, DB Fernverkehr AG Frankfurt, 22.05.2015 Motivation An meinem
MehrJava - Webapplikationen
Java - Webapplikationen Bestandteile (HTTP,, JSP) Aufbau (Model View Controller) Datenverwaltung (Java Beans, Sessions) Entwicklung (Projektstruktur, Sysdeoplugin für Eclipse) 17. Januar 2006 Jan Hatje
MehrGroßübung zu Einführung in die Programmierung
Großübung zu Einführung in die Programmierung Daniel Bimschas, M.Sc. Institut für Telematik, Universität zu Lübeck https://www.itm.uni-luebeck.de/people/bimschas Inhalt 1. Besprechung Übung 4 Iteration
MehrFunktionsbeschreibung. Lieferantenbewertung. von IT Consulting Kauka GmbH
Funktionsbeschreibung Lieferantenbewertung von IT Consulting Kauka GmbH Stand 16.02.2010 odul LBW Das Modul LBW... 3 1. Konfiguration... 4 1.1 ppm... 4 1.2 Zertifikate... 5 1.3 Reklamationsverhalten...
MehrVerteilte Systeme. Map Reduce. Secure Identity Research Group
Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das
MehrACCESS SQL ACCESS SQL
ACCESS SQL Datenbankabfragen mit der Query-Language ACCESS SQL Datenbankpraxis mit Access 34 Was ist SQL Structured Query Language Bestehend aus Datendefinitionssprache (DDL) Datenmanipulationssprache
MehrEHCache und Terracotta. Jochen Wiedmann, Software AG
EH und Terracotta Jochen Wiedmann, Software AG Autor Perl-Contributor DBD::mySQL 2, DBI::Proxy, DBI::Shell, DBD::CSV, Net::Daemon, RPC::Pl(Client Server) (Autor) DBI (Developer) ASF-Member (Apache Software
MehrHTRONIC WinMasterPro - Version 1.12 (03.11.99) ============================================== Copyright (C) 1999 H-TRONIC GmbH, Hirschau.
HTRONIC WinMasterPro - Version 1.12 (03.11.99) ============================================== Copyright (C) 1999 H-TRONIC GmbH, Hirschau Hinweis: Wenn Sie diesen Text mit dem Windows Notepad betrachten,
MehrÜberblick. Einführung Graphentheorie
Überblick Einführung Graphentheorie Graph-Algorithmen mit Map Kurzeinführung Graphentheorie Algorithmus zum Finden von Cliquen Graphen bestehen aus Knoten (englisch: Node, Vertex, Mehrzahl Vertices) Kanten
MehrNeuerungen Analysis Services
Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen
MehrAlgorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1
Algorithmen Consistent Hashing Bloom Filter MapReduce Distributed Hash Tables Einführung 1 Consistent Hashing Problem: Wie finde ich den Speicherort für ein Objekt in einem verteilten System mit n Knoten?
MehrParallele und funktionale Programmierung Wintersemester 2013/14. 8. Übung Abgabe bis 20.12.2013, 16:00 Uhr
8. Übung Abgabe bis 20.12.2013, 16:00 Uhr Aufgabe 8.1: Zeigerverdopplung Ermitteln Sie an folgendem Beispiel den Rang für jedes Listenelement sequentiell und mit dem in der Vorlesung vorgestellten parallelen
MehrTECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK
TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK Lehrstuhl für Sprachen und Beschreibungsstrukturen SS 2009 Grundlagen: Algorithmen und Datenstrukturen Übungsblatt 11 Prof. Dr. Helmut Seidl, S. Pott,
MehrSpark, Impala und Hadoop in der Kreditrisikoberechnung
Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort
MehrProduktentwicklung damit sollten Sie rechnen
Produktentwicklung damit sollten Sie rechnen 0. Zusammenfassung Wer Produktentwicklung betreiben will, muss in erster Linie sehr viel lesen: Dokumente aus unterschiedlichsten Quellen und in vielen Formaten.
MehrStatistik I. Hinweise zur Bearbeitung. Aufgabe 1
Statistik I, WS 2002/03, Seite 1 von 7 Statistik I Hinweise zur Bearbeitung Hilfsmittel: - Taschenrechner (ohne Datenbank oder die Möglichkeit diesen zu programmieren) - Formelsammlung im Umfang von einer
MehrÜbrigens: um den Algorithmus im Unterricht einzuführen, sind keine Formeln notwendig! Warum reicht die normale ASCII-Codierung nicht aus?
Huffman-Code Dieser Text ist als Hintergrundinformation ausschliesslich für die Lehrperson gedacht. Der Text ist deshalb eher technisch gehalten. Er lehnt sich an das entsprechende Kapitel in "Turing Omnibus"
MehrHandbuch zum besseren Verständnis des Webalizers Kurzanleitung
Handbuch zum besseren Verständnis des Webalizers Kurzanleitung Eine Orientierungshilfe von die-netzwerkstatt.de Vorwort Inhalt Dieses Dokument beschreibt den Aufbau der Auswertung der Webserver-Statistiken.
MehrBabeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005. Paradigmen im Algorithmenentwurf
Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005 Paradigmen im Algorithmenentwurf Problemlösen Problem definieren Algorithmus entwerfen
MehrIndustrie 4.0 und Smart Data
Industrie 4.0 und Smart Data Herausforderungen für die IT-Infrastruktur bei der Auswertung großer heterogener Datenmengen Richard Göbel Inhalt Industrie 4.0 - Was ist das? Was ist neu? Herausforderungen
MehrMap Reduce. Programmiermodell. Prof. Dr. Ingo Claÿen. Motivation. Modell. Verarbeitungsablauf. Algorithmen-Entwurf. Map-Reduce in Java
Map Reduce Programmiermodell Prof. Dr. Ingo Claÿen Hochschule für Technik und Wirtschaft Berlin Motivation Modell Verarbeitungsablauf Algorithmen-Entwurf Map-Reduce in Java Motivation Was ist Map-Reduce
MehrAblauf Web-Blaster Eine exemplarische Darstellung des Ablaufs des Web-Blasters
Ablauf Web-Blaster Eine exemplarische Darstellung des Ablaufs des Web-Blasters Möglichkeit A: Der Nutzer kommt auf die Startseite des Web-Blasters. In der dortigen Adresszeile kann er die Adresse einer
MehrDominik Wagenknecht Accenture. Der No Frills Big Data Workshop -Teil3
Dominik Wagenknecht Accenture Der No Frills Big Data Workshop -Teil3 Der no frills BigData Workshop JAX 2012, 16.4.2012, Mainz Teil 3 Google ist ein Pionier von BigData und hat mit MapReduce und BigTable
MehrThema: Das MapReduce-Framework
Software as a Service Cloud Computing und aktuelle Entwicklungen Seminararbeit Thema: Das MapReduce-Framework Betreuer: Prof. Dr. Klaus Küspert Dipl.-Inf. Andreas Göbel Nicky Kuhnt Friedrich-Schiller-Universität
MehrMap Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher
Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!
MehrGeometrische Algorithmen
Geometrische Algorithmen Thomas Röfer Motivation Scan-line-Prinzip Konvexe Hülle Distanzprobleme Voronoi-Diagramm Rückblick Manipulation von Mengen Vorrangwarteschlange Heap HeapSort swap(a, 0, 4) 1 5
MehrTeamprojekt & Projekt
18. Oktober 2010 Teamprojekt & Projekt Veranstalter: Betreuer: Prof. Dr. Georg Lausen Thomas Hordnung, Alexander Schätzle, Martin Przjyaciel-Zablocki dbis Studienordnung Master: 16 ECTS 480 Semesterstunden
MehrMesh-Visualisierung. Von Matthias Kostka. Visualisierung großer Datensätze
Mesh-Visualisierung Von Matthias Kostka Übersicht Einführung Streaming Meshes Quick-VDR Rendering virtueller Umgebung Rendering mit PC-Clustern Zusammenfassung 2 Mesh Untereinander verbundene Punkte bilden
MehrCS2101 Nebenläufige und Verteilte Programme Bachelor of Science (Informatik)
Prof. Dr. Th. Letschert CS2101 Nebenläufige und Verteilte Programme Bachelor of Science (Informatik) Vorlesung 4 Th Letschert FH Gießen-Friedberg Nebenläufige und verteilte Programme 2 : Thread-Pools Motivation:
MehrAusarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud
Ausarbeitung AW2 SS2012 Jan-Christoph Meier Data Mining in der Cloud Fakultät Technik und Informatik Department Informatik Faculty of Engineering and Computer Science Department of Computer Science Inhaltsverzeichnis
MehrInhaltsverzeichnis. jetzt lerne ich
Inhaltsverzeichnis jetzt lerne ich Einführung 15 1 Erste Schritte 21 1.1 Datenbanken und Datenbank-Managementsysteme 21 1.2 Zugriff auf Datenbanken 22 1.3 Was der Großvater noch wusste... 22 1.4 Einordnung
MehrMapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen
MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?
MehrDie Java Stream API. Funktionale Programmierung mit der Stream API des JDK 1.8. Prof. Dr. Nikolaus Wulff
Die Java Stream API Funktionale Programmierung mit der Stream API des JDK 1.8 Prof. Dr. Nikolaus Wulff Funktionale Programmierung Neben der Collection API mit default Methoden ist als weitere Neuerung
Mehr16. All Pairs Shortest Path (ASPS)
. All Pairs Shortest Path (ASPS) All Pairs Shortest Path (APSP): Eingabe: Gewichteter Graph G=(V,E) Ausgabe: Für jedes Paar von Knoten u,v V die Distanz von u nach v sowie einen kürzesten Weg a b c d e
MehrEinführung in die STL
1/29 in die STL Florian Adamsky, B. Sc. (PhD cand.) florian.adamsky@iem.thm.de http://florian.adamsky.it/ cbd Softwareentwicklung im WS 2014/15 2/29 Outline 1 3/29 Inhaltsverzeichnis 1 4/29 Typisierung
MehrAlgorithmik Funke/Bahrdt/Krumpe/Mendel/Seybold SS Übungsblatt 4
Algorithmik Funke/Bahrdt/Krumpe/Mendel/Seybold SS 2015 http://www.fmi.informatik.uni-stuttgart.de/alg Institut für Formale Methoden der Informatik Universität Stuttgart Übungsblatt 4 Punkte: 50 Problem
Mehrbersicht Datenbanken und Datawarehouses Datenbank Datenbanksysteme Niels Schršter
bersicht Niels Schršter EinfŸhrung GROUP BY Roll UpÔs Kreuztabellen Cubes Datenbank Ansammlung von Tabellen, die einen ãausschnitt der WeltÒ fÿr eine Benutzergruppe beschreiben. Sie beschreiben die funktionalen
Mehrtf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009
tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten
MehrParallele Programmierung in SQL und PL/SQL. Peter Bekiesch Dierk Lenz DOAG 2011 Konferenz und Ausstellung 17. November 2011
Parallele Programmierung in SQL und PL/SQL Peter Bekiesch Dierk Lenz DOAG 2011 Konferenz und Ausstellung 17. November 2011 Herrmann & Lenz Services GmbH Herrmann & Lenz Solutions GmbH Erfolgreich seit
MehrSamsung SecretZone Häufig gestellte Fragen (FAQ)
Samsung SecretZone Häufig gestellte Fragen (FAQ) Die folgenden Fragen und Antworten helfen Ihnen bei Problemen, die möglicherweise bei der Nutzung von Samsung SecretZone auftreten. F: Ich kann Samsung
MehrTextdokument-Suche auf dem Rechner Implementierungsprojekt
Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick
MehrDomain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing
SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0
Mehr(7) Normal Mapping. Vorlesung Computergraphik II S. Müller. Dank an Stefan Rilling U N I V E R S I T Ä T KOBLENZ LANDAU
(7) Normal Mapping Vorlesung Computergraphik II S. Müller Dank an Stefan Rilling Einleitung Die Welt ist voller Details Viele Details treten in Form von Oberflächendetails auf S. Müller - 3 - Darstellung
MehrLokalisierung von inneren und äußeren Grenzen in Sensornetzwerken
Lokalisierung von inneren und äußeren Grenzen in Sensornetzwerken Seminararbeit: Algorithmen für Sensornetzwerke Thomas Gramer 1 Thomas Gramer: KIT Universität des Landes Baden-Württemberg und nationales
MehrSchnittstellenbeschreibung SMS Gateway Internext GmbH
Schnittstellenbeschreibung SMS Gateway Internext GmbH Stand: 20.01.2011 Kurzbeschreibung Das folgende Dokument beschreibt die Schnittstelle des SMS Gateways zum Versenden von Kurzmitteilungen (SMS). Dieses
MehrWerkzeuge Vernetztes System Dienste
Proze -orientierter Ansatz zur Spezikation betreibergerechter Managementwerkzeuge Christian Mayerl Zusammenfassung In der Vergangenheit wurde ein Schwerpunkt in der Informatik auf die eektive und eziente
MehrDetecting Near Duplicates for Web Crawling
Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:
MehrGoogle Caffeine. Was ist es, was ändert sich, wie bereite ich mich vor?
Google Caffeine Was ist es, was ändert sich, wie bereite ich mich vor? Wer ist das? Johannes Beus, SISTRIX Suchmaschinenoptimierung seit 5 Monaten Betrieb eigener Webprojekte unterschiedlichster Themengebiete
Mehr