Datensuche mit NoSQL. Über mich. Kai Spichale OOP 2013

Transkript

1 Datensuche mit NoSQL Kai Spichale OOP Über mich Kai Spichale Softwarearchitekt und -entwickler bei adesso AG Schwerpunkt: Java-Technologien Autor verschiedener Fachartikel, Sprecher auf Konferenzen adesso gehört zu den führenden IT-Dienstleister im deutschsprachigen Raum Beratung und individuelle Softwareentwicklung Mehr als 1000 Mitarbeiter Zu den wichtigsten Kunden zählen die Allianz, Hannover Rück, Union Investment, Westdeutsche Lotterie, Zurich Versicherung, DEVK und DAK OOP 2013 Kai Spichale

2 Motivation NoSQL Suche Exponentielles Datenwachstum Semistrukturierte Daten Stärker vernetzt 80% der unternehmensrelevanten Informationen in unstrukturierter Form, hauptsächlich Text Datenzugriff ändert sich: > Volltextsuche wird wichtiger > Benutzererwartungen steigen Suche über bekannte Schlüsselbegriffe oder über ein Katalogsystem sind für große Datenbestände unpraktisch OOP 2013 Kai Spichale Agenda Architekturtreiber Volltextsuchen NoSQL: > MongoDB > Neo4j > Apache Cassandra > Apache Hadoop Schlussbemerkung OOP 2013 Kai Spichale

3 Architekturtreiber Performance Volumen Konsistenz Datenstruktur Datenzugriff Verfügbarkeit Änderungen OOP 2013 Kai Spichale Volltextsuchen Aufgabe: Auffinden von Texten in einer Vielzahl von Dateien oder Datensätzen Naiver Ansatz mit linearer Suche à la grep: > O(n), langsam > Negation ist schwierig > Fehlende Unterstützung von Phrasen Invertierter Index: > Term Dokument > Jedem Term werden Informationen über das Vorkommen des Terms in den Dokumenten zugeordnet OOP 2013 Kai Spichale

4 Apache Java-Bibliothek für Volltextsuchen De-facto-Standard im Bereich Open-Source-Suchlösungen Merkmale: > Anwendungsneutral > Gute Performance Funktionalität: > Bewertete und nach Rang sortierte Suchen > Viele Abfragetypen, Facettennavigation > Suche nach einzelnen Feldern > Sortierung > Multi-Index-Suchen > Parallele Suche und Update OOP 2013 Kai Spichale Textanalyse mit Dokumente Extrahieren, Parsen Character Filter Tokenizer Token Filter de.germananalyzer: StandardTokenizer > StandardFilter > LowerCaseFilter > StopFilter > GermanStemFilter Invertierter Index OOP 2013 Kai Spichale

5 Textanalyse mit Eat your own dog food. First come, first served. The exception proves the rule. Stopword List a and around every for from in is it not on one the to under ID Term Document 1 come 2 2 dog 1 3 eat 1 4 exception 3 5 first 2 5 food 1 6 own 1 7 prove 3 8 rule 3 9 serve 2 10 your OOP 2013 Kai Spichale Abfragetypen Abfrage Termsuche (required, prohibited, should) Phrasensuche Wildcard Beispiel +dog snoopy foo bar fo*a? Fuzzy fobar~ Range [A TO Z] OOP 2013 Kai Spichale

6 NoSQL und Datensuche One size fits all -Ansatz Performance Volumen Welche NoSQL-Datenbank erfüllt die Anforderungen am besten? Wird Volltextsuche unterstützt? Konsistenz Datenstruktur Datenzugriff Änderungen Verfügbarkeit Was bieten diese Datenbanken? MongoDB Neo4j Apache Cassandra Apache Hadoop OOP 2013 Kai Spichale Dokumentenorientierte Datenbanken Speichern Daten in Form von Dokumenten Semistrukturierte Inhalte JSON, YAML, XML { "_id" : ObjectId( 42"), "firstname" : "John", "lastname" : "Lennon", "address" : { "city" : "Liverpool", "street" : "251 Menlove Avenue } } OOP 2013 Kai Spichale

7 MongoDB Ad-hoc-Abfragen für Dokumente oder einzelne Felder db.things.find({firstname:"john"}) Abfragen mit serverseitig ausgeführten JavaScript-Funktionen Aggregationen, MapReduce Einfache Textsuchen > Mit Multikeys können Werte eines Arrays indiziert werden { article : some long text", } _keywords : [ some", long", text ] OOP 2013 Kai Spichale MongoDB Mongo-Connector synchronisiert Daten aus MongoDB mit einem Zielsystem (z.b.: Solr, Elastic Search) Architektur mit separaten Suchserver möglich update sync Doc erstellen indizieren suchen MongDB Mongo Connector Solr OOP 2013 Kai Spichale

8 MongoDB MongoDB MongoDB + ü Kein Ergebnis-Mergen ü Komplexe Queries mit Aggregationen ü Volltextsuchen mit Stemming, Faceting ü Komplexe Queries mit Aggregationen ü Kein Ergebnis-Mergen ü Volltextsuchen mit Stemming, Faceting q Nur einfache Textsuchen q Mergen notwendig q Erhöhte Komplexität (Entwicklung, Betrieb) q Keine Transaktion q Keine partiellen Dokumentupdates q Verwendet Schema OOP 2013 Kai Spichale Graphendatenbanken Informationen werden als Graphen modelliert > Knoten > Kanten (auch Relationships) > Eigenschaften (auch Properties) Universelles Datenmodell Traversierung id=1 name= John id=3 name= Paul Beispiel: Neo4j friend friend id=2 name= George OOP 2013 Kai Spichale

9 Neo4j Traversierung: > Tiefensuche, Breitensuche > Gremlin, Cypher START person=node:peoplesearch(name= John ) MATCH person<-[:friends]->afriend RETURN afriend Ergebnis = George OOP 2013 Kai Spichale Neo4j Ganze Datenbank ist natürlicher Index bestehend aus Knoten oder Beziehungen > Beispiele: name, city personrepository.findbypropertyvalue("name", "John"); Auto-Indexing verfolgt alle Property-Änderungen OOP 2013 Kai Spichale

10 Neo4j Unterstützt -basierte class Person indextype=indextype.fulltext) private String name;.. } Index<PropertyContainer> index = template.getindex("peoplesearch"); index.query("name", "Jo*"); OOP 2013 Kai Spichale Wide Column Store Google BigTable: a sparse, distributed multi-dimensional sorted map Daten organisiert in Zeilen, Spaltenfamilien und Spalten Ideal für zeilenweises Sharding (horizontale Skalierung) Unterschiedliche Spalten pro Zeile möglich pmccart address Liverpool.. name McCartney Eindeutige Zeilenschlüssel jlennon address Liverpool.. name Lennon state UK gharris name Harrison OOP 2013 Kai Spichale

11 Apache Cassandra BigTable-Klon Distributed Hash Table (Amazon Dynamo) schlussendlich konsistent, konfigurierbar Datenabfrage: > Cassandra Query Language (CQL) = SQL-Dialekt ohne Joins SELECT name FROM user WHERE firstname= John ; > Hadopp-Integration OOP 2013 Kai Spichale Apache Cassandra Solandra: Solr mit Cassandra als Backend statt Dateisystem DataStax Enterprise Search > Daten in Cassandra werden lokal in Solr indiziert und umgekehrt > Integration durch Secondary Index API > CQL unterstützt Solr-Queries SELECT title FROM solr WHERE solr_query= name:jo*'; > Dokumentenweise werden die Daten im Cluster verteilt > Nutzt Cassandra Ringinformationen für Solr Distributed Search Query Cassandra Column Family Row Row Key Column Node Solr Core Document Unique Field Shard OOP 2013 Kai Spichale

12 Apache Hadoop Open Source Projekt zur Verarbeitung von großen Datenmengen (BigData) im Computercluster Skalierbar, ausfallsicher Umfangreiches Hadoop Ökosystem Hadoop Distributed File System, Hadoop MapReduce OOP 2013 Kai Spichale Hadoop MapReduce Map Phase: > Datensätze werden in Map-Funktion verarbeitet > Datenlokalität > Ergebnis sind Schlüssel-Wert-Paare Persistente Daten Map Map Map Map Shuffle/Combine Phase: > Verteilte Sortierung der Zwischenergebnisse > Sortierung und Gruppierung durch Schlüssel Transiente Daten Reduce Reduce Reduce Reduce Phase: > Verarbeitung der gruppierten Schlüssel-Wert- Paare in Reduce-Funktion Persistente Daten OOP 2013 Kai Spichale

13 Hadoop MapReduce Allgemeine Funktionsweise eines MapReduce-Jobs map(k, v) -> [(K1,V1), (K2,V2),... ] Mapper Daten Shuffle Reducer Ergebnis reduce(kn, [Vi, Vj, ]) -> (Km, R) OOP 2013 Kai Spichale Wie löst man Probleme mit MapReduce? Problemklassen ohne Reduce-Phase > Suchen > Massenkonvertierung > Sortieren > Map-Side Join Problemklassen mit Reduce-Phase > Gruppieren und Aggregieren > Reduce-Side Join OOP 2013 Kai Spichale

14 Hadoop MapReduce: Suchen Suche nach A Mapper emittiert nur Records mit Suchkriterium Daten 1: A,B,C 2: D,E 3: B,E 4: A,D 5: A,C,E Ergebnis = 1, 4, OOP 2013 Kai Spichale Hadoop MapReduce: Indizieren HDFS speichert Rohdaten (Import) Mapper indiziert Daten mit > SolrInputDocument erzeugen und StreamingUpdateSolrServer aufrufen HDFS MapReduce Job Index OOP 2013 Kai Spichale

15 Hadoop MapReduce: Indizieren Daten 1: text 2: text 3: text 4: text 5: text Mapper Ergebnis ist public void map( LongWritable key, Text val, OutputCollector<NullWritable, NullWritable> output, Reporter reporter) throws IOException { st = new StringTokenizer(val.toString()); linecounter = 0; while (st.hasmoretokens()) { doc= new SolrInputDocument(); doc.addfield("id", filename + key.tostring() + linecounter++); doc.addfield("txt", st.nexttoken()); try { server.add(doc); } catch (Exception exp) { } }} OOP 2013 Kai Spichale Apache Tika Extrahiert Metadaten und strukturierten Text aus Dokumenten Unterstützt verschiedene Formate: HTML, MS Office Dokumente, PDF, etc. Stream-Parser auch für große Dokumente geeignet Tika HDFS MapReduce Job Index OOP 2013 Kai Spichale

16 Apache Solr ist eine Programmbibliothek, kein Suchserver Suchserver: > Solr > ElasticSearch > Katta > Sphinx Tika HDFS MapReduce Job Solr Index OOP 2013 Kai Spichale Apache Flume Web Server, Applikationen Verteilter Dienst zum Sammeln, Aggregieren und Kopieren großen Datenmengen Setzt effizient Streaming-Techniken ein Fehlertolerant Flume Anwendungsfall: Logdaten sammeln Tika HDFS MapReduce Job Solr Index OOP 2013 Kai Spichale

17 Alternativen Web Server, Apps, DBs Nutch Crawler erzeugt ein Datensatz pro URL in CrawlDB Hadoop DistCp kopiert Daten innerhalb/ zwischen Hadoop-Clustern Apache Sqoop transferiert Bulk-Daten zwischen Hadoop und RDBMS Flume Crawler DistCp Sqoop Tika HDFS MapReduce Job Solr Index OOP 2013 Kai Spichale Apache Hadoop Web Content, Intranet Loading Werkzeug Fundamentaler Mismatch: > MapReduce ideal für Batch-Verarbeitung > für interaktive Suchen MapReduce zum Indizieren von großen Datenmengen Geeignet für (offline) Big-Data-Lösung möglich Hadoop Suche Analyse Export Visualisierung OOP 2013 Kai Spichale

18 Zusammenfassung Mehr semistrukturierte Daten Bedeutung von Volltextsuchen wächst Kombination von NoSQL-Store und : > Neo4j: native Integration > MongoDB: Integration mit Mongo Connector > Cassandra: Online BigData > Hadoop: Offline BigData Alternative: Suchserver als dokumentenorientierte Datenbank OOP 2013 Kai Spichale