Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Ähnliche Dokumente

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Scandio SEBOL Search

Apache HBase. A BigTable Column Store on top of Hadoop

PICALIKE API DOKUMENTATION

June Automic Hadoop Agent. Data Automation - Hadoop Integration

KfW-Förderreport 2015 Auswertung Kurzfassung

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

ASAM ODS 6.0 next technology

Sozio- Technische Systeme

Java und XML 2. Java und XML

Auswertung JAM! Fragebogen: Deine Meinung ist uns wichtig!

MapReduce. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

<script type="text/javascript"> <! <%= page(page.searchsuggestionsscript) %> // > </script>

Neue Ansätze der Softwarequalitätssicherung

Florian Hopf elasticsearch. Bern

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Prof. Dr.-Ing. Rainer Schmidt 1

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Möglichkeiten für bestehende Systeme

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Anleitung über den Umgang mit Schildern

Ein mobiler Electronic Program Guide

3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner

Infrastruktur fit machen für Hochverfügbarkeit, Workload Management und Skalierbarkeit

Diana Lange. GENERATIVE GESTALTUNG Arten des Zufalls

Um das Versenden von Anhängen an s zu ermöglichen, wurde der Assistent für die Kommunikation leicht überarbeitet und wo nötig verbessert.

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Big Data Informationen neu gelebt

Lehrer: Einschreibemethoden

Das sogenannte Beamen ist auch in EEP möglich ohne das Zusatzprogramm Beamer. Zwar etwas umständlicher aber es funktioniert

PULSE REMOTE SERVICES DIENSTLEISTUNGEN FÜR PERFORMER

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert Ventum Consulting

Kommunikation im Unternehmen

Inhaltsverzeichnis Dokumentverwaltung Organisation von Dokumenten Ordner erstellen Dokumente im Dateisystem behandeln...

Test zur Bereitschaft für die Cloud

OPERATIONEN AUF EINER DATENBANK

Hyperlink-Erstellung in InDesign für

3 Windows als Storage-Zentrale

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Website-Verwaltung mit Content Management Systemen

Florian Hopf elasticsearch.

Verteiltes Persistenz-System. Mykhaylo Kabalkin

VVA Webservice Online Lieferbarkeits-Abfrage

Meinungen der Bürgerinnen und Bürger in Hamburg und Berlin zu einer Bewerbung um die Austragung der Olympischen Spiele

Information über die WebServices der Parlamentsdienste

5. Programmierschnittstellen für XML

Synchronisations- Assistent

Inhaltsverzeichnis Seite

Sie haben Ihr Ziel erreicht

Performance Analyse in einem komplexen Softwaresystem Gebhard Ebeling

E-Finance Java de PF

Datenbanken Microsoft Access 2010

Webalizer HOWTO. Stand:

Benutzerhandbuch - Elterliche Kontrolle

Echtzeitanomalieerkennung für Internetdienste (Abschlussvortrag)

Warum Suche (trotzdem) bedeutend ist

Hardware - Software - Net zwerke

Entwicklungen bei der Linux Clustersoftware

Tritt beim Aufruf ein Fehler aus, so wird eine MessageBox mit dem Fehlercode und der Kommandozeile angezeigt.

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! Sascha Bäcker Dr.

DIRECTINFO 5.7 SICHERHEITSKONZEPTE FÜR BENUTZER, INFORMATIONEN UND FUNKTIONEN

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

I N F O R M A T I O N V I R T U A L I S I E R U N G. Wir schützen Ihre Unternehmenswerte

BOKUbox. Zentraler Informatikdienst (ZID/BOKU-IT) Inhaltsverzeichnis

Import und Export von Übergängern

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

Anleitung zum Einstieg bei Cadenas

Kapitel 6 Anfragebearbeitung

5. Programmierschnittstellen für XML

Wichtiges Thema: Ihre private Rente und der viel zu wenig beachtete - Rentenfaktor

HMC WEB INDEX. Erste große Deutschland Studie. Wie fit sind die Clubs im online marketing?

Teaser-Bilder erstellen mit GIMP. Bildbearbeitung mit GIMP 1

Abwesenheitsnotiz im Exchange Server 2010

Einführung in TexMaker

Themen. Web Services und SOA. Stefan Szalowski Daten- und Online-Kommunikation Web Services

Kommunikationsübersicht XIMA FORMCYCLE Inhaltsverzeichnis

Dreamweaver 8 Einführung

Prüfungsfach Mathematik Samstag, 08. Juni 2002

Aktualisierung des Internet-Browsers

Umsatz-Kosten-Treiber-Matrix Woodmark Consulting AG

Journaling-Dateisysteme

Forderungsausfälle - Ergebnisse einer repräsentativen Studie von Forsa - September 2009

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

1 Einleitung. 1.1 Caching von Webanwendungen Clientseites Caching

Microsoft (Dynamics) CRM 2020: Wie verändern sich Markt, Eco-System und Anwendungsszenarien nach Cloud & Co?

Neue Studie zum digitalen Universum entdeckt Big Data Gap

WIE SMI-UNTERNEHMEN SOCIAL MEDIA NUTZEN

Bereich METIS (Texte im Internet) Zählmarkenrecherche

(C)opyright 2009 by Jochen Vajda

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

Whitepaper. Produkt: combit Relationship Manager. Einbindung externer FiBu-/Warenwirtschaftsdaten. combit GmbH Untere Laube Konstanz

peer-to-peer Dateisystem Synchronisation

Anwendungshinweis Nr. 12. Wie konfiguriere ich redundante Serververbindungen

Berechnung der gesamten Datenmenge und Umrechnung in KB

Neue Wege im Reporting Design mit Hilfe von Eye Tracking Analysen

Copyright 2014 Delta Software Technology GmbH. All Rights reserved.

inviu routes Installation und Erstellung einer ENAiKOON id

Verbesserungen im Internetauftritt UM. Termin bei Frau Minister Gönner am 1. Juli Umweltgoogle

Transkript:

Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr

ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH

WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit 1996 PL bei mgm technology partners GmbH Schwerpunkt Big Data seit 2009

WAS IST HADOOP?

Open Source Implementierung zweier Whitepaper von Google: The Google File System MapReduce: Simplified Data Processing on Large Clusters

2 HAUPTKOMPONENTEN Hadoop Distributed File System - Ein skaliebares, fehlertolerantes und verteiltes Dateisystem MapReduce - Eine skalierbare, fehlertolerante und verteilte Ausführungsumgebung Zahlreiche Erweiterungen: Hbase, Hive, Pig,...

Es ist deutlich effizienter Programme zu den Daten zu bringen, als Daten zu den Programmen.

HADOOP IM EINSATZ Hadoop wird mittlerweile als ernsthafte Technologie akzeptiert.

2011 waren allein mit der Cloudera Hadoop Distribution 22 Cluster mit jeweils mindestens 1 PB Daten in Betrieb. Omer Trajman (Cloudera)

Durchschnittliche Clustergröße 2010: 60 Knoten Durchschnittliche Clustergröße 2011: 200 Knoten

Insgesamt 42000 Server Bis zu 4000 Server pro Cluster Gesamtkapazität 400 PB

Mehr als 100 Hadoop Cluster Größter Cluster hat über 100 PB Wachstum > 100 TB pro Tag

VORTEILE VON HADOOP Unbegrenzte Kapazität Sehr hoher Datendurchsatz Fehlertoleranz / Ausfallsicherheit Läuft auf Standardhardware

ABER HADOOP IST NICHT ECHTZEITFÄHIG

WAS IST SOLR? Solr ist ein standalone Such-Server mit REST-API basierend auf Lucene.

Indizierung per Volltext und Schema JSON und XML als Datenformat REST Schnittstelle per HTTP Basiert auf etablierter Lucene-Engine

KOMBINATION VON HADOOP UND SOLR

HADOOP CLUSTER

HADOOP CLUSTER MIT SOLR

HDFS ZUR DATENABLAGE Welches Datenformat ist geeignet? Wie Daten organisieren?

MÖGLICHE DATENFORMATE Strukturiert / Unstrukturiert Container: Hadoop Sequence-/Mapfiles, Binary, Text Einschränkungen des HDFS beachten!

STRUKTURIERTE DATENFORMATE CSV, JSON, XML, YAML Protocol Buffers, Thrift, Avro...

UNSTRUKTURIERTE DATENFORMATE Logfiles, PDF, HTML, Text,...

DATENORGANISATION Ein Dokument muss eindeutig adressiert werden können HDFS Blockgröße optimal nutzen Verwandte Daten möglichst nah beieinander speichern /logfiles/appname/2012/11/06/0001#123456 Beispiel: Pfad zur Datei 0001 und Index innerhalb der Datei

ALTERNATIVE HBASE

HBASE Gut geeignet zu Speicherung strukturierter Daten Benötigt allerdings viel Hauptspeicher auf Datanodes

INDIZIERUNG IN SOLR Online während Datenannahme oder Offline

ONLINE-INDIZIERUNG Indizierung in Echtzeit Daten werden sofort gefunden Indizierung per REST-Request

OFFLINE-INDIZIERUNG Nutzung von MapReduce zur Indizierung Parallelisierung der Indizierung Sehr hoher Indizierungsdurchsatz Indizierung per Massendatenimport Lastet den Cluster stark aus

KOMBINATION BEIDER TECHNIKEN Bietet vorteile beider Ansätze Verhindert Diskrepanz zwischen Index und Datenbestand

PROBLEME DER SOLR- INTEGRATION

PROBLEM: SPEICHERBEDARF Solr benötigt viel Hauptspeicher Speicherbedarf abhängig von Dokumentstruktur

OPTIMIERUNG DES INDIZIERUNGSSCHEMAS DURCH... Speicherung von Feldern ohne diese zu indizieren Indizierung von Feldern ohne diese zu speichern Pfad im HDFS als Primärschlüssel kurz halten Reduzierung der Genauigkeit von Zeitstempeln

AUFTEILUNG IN TEILINDIZES Zweitnutzung der Datanodes des Hadoop Clusters Verteilung der Last Kapazität skaliert mit Datanodes Ausfallsicherheit

PROBLEM: MANAGEMENT DER SOLR-INSTANZEN Ausfälle erkennen Gleichmäßige Auslastung sicherstellen Indizes persistieren

HADOOP FUNKTIONALITÄT NUTZEN Cluster-Health mittels Hadoop ermitteln Über Hadoop-Server iterieren und Solr-Daten ermitteln

SOLR INFORMATIONEN Wie viele Indizes sind aktiv? Wie viele Dokumente indiziert? Sind indizes optimiert?

AKTIONEN ABLEITEN Indizes sichern Indizes einspielen Cluster ausbalancieren

BEISPIEL: SERVERAUSFALL 1. Hadop erkennt Ausfall 2. Ausgefallene Indizes werden identifiziert 3. Auswahl von Ersatzservern 4. Einspielen ausgefallener Indizes auf Ersatzservern

PROBLEM: SUCHANFRAGEN PARALLELISIEREN Suchanfragen müssen auf alle Solr Instanzen verteilt werden Konsoldierung der Treffer

VERTEILUNG DER SUCHANFRAGE Timeout-Handling notwendig Wenn möglich Minimierung der Anfragen durch intelligentes Sharding

TREFFERKONSOLIDIERUNG Sortierung der Treffer Treffermenge muss limitiert werden, um Speicherprobleme zu vermeiden

PROBLEM: AUSLESEN DER TREFFER IM HDFS Zugriff auf verteilte Daten im HDFS sehr langsam Auslesen großer Treffermengen in Echtzeit nicht möglich

PAGING DER TREFFER Es wird immer nur eine kleine Treffermenge ausgelesen und ausgeliefert Blätter-Performance kann durch Preloading im Hintergrund verbessert werden

GESAMTARCHITEKTUR

PERFORMANCE 13 Mrd. indizierte Logmeldungen 5 Felder pro Logmeldung indiziert 60 Teilindizes Indexgröße ca. 40 GB pro Teilindex

SOLR Antwortzeit einer Solr-Instanz: 1-2 Sekunden Gesamtzeit aller 60 Instanzen: 4-8 Sekunden Konsolidierung der Treffer: max. 1 Sekunde

HADOOP Auslesen von 50 Treffern aus dem HDFS: 1-2 Sekunden Random Access sehr langsam, daher Caching weiterer Treffer im Hintergrund

GESAMT Zeit zur Darstellung erster 50 Treffer: 6-11 Sekunden

FAZIT Beide Technologien ergänzen sich gut Produktivbetrieb seit 14 Monaten bisher ohne Ausfälle Sehr gute Nutzerakzeptanz

ABER Solr Integration sehr komplex Performance noch ausbaufähig Verfügbarkeit von Open Source Lösungen mit ähnlicher Funktionalität: Elastic Search

VIELEN DANK! Vortragsslides unter http://dikant.de/wjax-2012/ Blog Serie Scalable Log Data Management with Hadoop unter http://blog.mgm-tp.com