Datensuche mit NoSQL. Über mich. Kai Spichale OOP 2013
|
|
- Sofie Kopp
- vor 8 Jahren
- Abrufe
Transkript
1 Datensuche mit NoSQL Kai Spichale OOP Über mich Kai Spichale Softwarearchitekt und -entwickler bei adesso AG Schwerpunkt: Java-Technologien Autor verschiedener Fachartikel, Sprecher auf Konferenzen adesso gehört zu den führenden IT-Dienstleister im deutschsprachigen Raum Beratung und individuelle Softwareentwicklung Mehr als 1000 Mitarbeiter Zu den wichtigsten Kunden zählen die Allianz, Hannover Rück, Union Investment, Westdeutsche Lotterie, Zurich Versicherung, DEVK und DAK OOP 2013 Kai Spichale
2 Motivation NoSQL Suche Exponentielles Datenwachstum Semistrukturierte Daten Stärker vernetzt 80% der unternehmensrelevanten Informationen in unstrukturierter Form, hauptsächlich Text Datenzugriff ändert sich: > Volltextsuche wird wichtiger > Benutzererwartungen steigen Suche über bekannte Schlüsselbegriffe oder über ein Katalogsystem sind für große Datenbestände unpraktisch OOP 2013 Kai Spichale Agenda Architekturtreiber Volltextsuchen NoSQL: > MongoDB > Neo4j > Apache Cassandra > Apache Hadoop Schlussbemerkung OOP 2013 Kai Spichale
3 Architekturtreiber Performance Volumen Konsistenz Datenstruktur Datenzugriff Verfügbarkeit Änderungen OOP 2013 Kai Spichale Volltextsuchen Aufgabe: Auffinden von Texten in einer Vielzahl von Dateien oder Datensätzen Naiver Ansatz mit linearer Suche à la grep: > O(n), langsam > Negation ist schwierig > Fehlende Unterstützung von Phrasen Invertierter Index: > Term Dokument > Jedem Term werden Informationen über das Vorkommen des Terms in den Dokumenten zugeordnet OOP 2013 Kai Spichale
4 Apache Java-Bibliothek für Volltextsuchen De-facto-Standard im Bereich Open-Source-Suchlösungen Merkmale: > Anwendungsneutral > Gute Performance Funktionalität: > Bewertete und nach Rang sortierte Suchen > Viele Abfragetypen, Facettennavigation > Suche nach einzelnen Feldern > Sortierung > Multi-Index-Suchen > Parallele Suche und Update OOP 2013 Kai Spichale Textanalyse mit Dokumente Extrahieren, Parsen Character Filter Tokenizer Token Filter de.germananalyzer: StandardTokenizer > StandardFilter > LowerCaseFilter > StopFilter > GermanStemFilter Invertierter Index OOP 2013 Kai Spichale
5 Textanalyse mit Eat your own dog food. First come, first served. The exception proves the rule. Stopword List a and around every for from in is it not on one the to under ID Term Document 1 come 2 2 dog 1 3 eat 1 4 exception 3 5 first 2 5 food 1 6 own 1 7 prove 3 8 rule 3 9 serve 2 10 your OOP 2013 Kai Spichale Abfragetypen Abfrage Termsuche (required, prohibited, should) Phrasensuche Wildcard Beispiel +dog snoopy foo bar fo*a? Fuzzy fobar~ Range [A TO Z] OOP 2013 Kai Spichale
6 NoSQL und Datensuche One size fits all -Ansatz Performance Volumen Welche NoSQL-Datenbank erfüllt die Anforderungen am besten? Wird Volltextsuche unterstützt? Konsistenz Datenstruktur Datenzugriff Änderungen Verfügbarkeit Was bieten diese Datenbanken? MongoDB Neo4j Apache Cassandra Apache Hadoop OOP 2013 Kai Spichale Dokumentenorientierte Datenbanken Speichern Daten in Form von Dokumenten Semistrukturierte Inhalte JSON, YAML, XML { "_id" : ObjectId( 42"), "firstname" : "John", "lastname" : "Lennon", "address" : { "city" : "Liverpool", "street" : "251 Menlove Avenue } } OOP 2013 Kai Spichale
7 MongoDB Ad-hoc-Abfragen für Dokumente oder einzelne Felder db.things.find({firstname:"john"}) Abfragen mit serverseitig ausgeführten JavaScript-Funktionen Aggregationen, MapReduce Einfache Textsuchen > Mit Multikeys können Werte eines Arrays indiziert werden { article : some long text", } _keywords : [ some", long", text ] OOP 2013 Kai Spichale MongoDB Mongo-Connector synchronisiert Daten aus MongoDB mit einem Zielsystem (z.b.: Solr, Elastic Search) Architektur mit separaten Suchserver möglich update sync Doc erstellen indizieren suchen MongDB Mongo Connector Solr OOP 2013 Kai Spichale
8 MongoDB MongoDB MongoDB + ü Kein Ergebnis-Mergen ü Komplexe Queries mit Aggregationen ü Volltextsuchen mit Stemming, Faceting ü Komplexe Queries mit Aggregationen ü Kein Ergebnis-Mergen ü Volltextsuchen mit Stemming, Faceting q Nur einfache Textsuchen q Mergen notwendig q Erhöhte Komplexität (Entwicklung, Betrieb) q Keine Transaktion q Keine partiellen Dokumentupdates q Verwendet Schema OOP 2013 Kai Spichale Graphendatenbanken Informationen werden als Graphen modelliert > Knoten > Kanten (auch Relationships) > Eigenschaften (auch Properties) Universelles Datenmodell Traversierung id=1 name= John id=3 name= Paul Beispiel: Neo4j friend friend id=2 name= George OOP 2013 Kai Spichale
9 Neo4j Traversierung: > Tiefensuche, Breitensuche > Gremlin, Cypher START person=node:peoplesearch(name= John ) MATCH person<-[:friends]->afriend RETURN afriend Ergebnis = George OOP 2013 Kai Spichale Neo4j Ganze Datenbank ist natürlicher Index bestehend aus Knoten oder Beziehungen > Beispiele: name, city personrepository.findbypropertyvalue("name", "John"); Auto-Indexing verfolgt alle Property-Änderungen OOP 2013 Kai Spichale
10 Neo4j Unterstützt -basierte class Person indextype=indextype.fulltext) private String name;.. } Index<PropertyContainer> index = template.getindex("peoplesearch"); index.query("name", "Jo*"); OOP 2013 Kai Spichale Wide Column Store Google BigTable: a sparse, distributed multi-dimensional sorted map Daten organisiert in Zeilen, Spaltenfamilien und Spalten Ideal für zeilenweises Sharding (horizontale Skalierung) Unterschiedliche Spalten pro Zeile möglich pmccart address Liverpool.. name McCartney Eindeutige Zeilenschlüssel jlennon address Liverpool.. name Lennon state UK gharris name Harrison OOP 2013 Kai Spichale
11 Apache Cassandra BigTable-Klon Distributed Hash Table (Amazon Dynamo) schlussendlich konsistent, konfigurierbar Datenabfrage: > Cassandra Query Language (CQL) = SQL-Dialekt ohne Joins SELECT name FROM user WHERE firstname= John ; > Hadopp-Integration OOP 2013 Kai Spichale Apache Cassandra Solandra: Solr mit Cassandra als Backend statt Dateisystem DataStax Enterprise Search > Daten in Cassandra werden lokal in Solr indiziert und umgekehrt > Integration durch Secondary Index API > CQL unterstützt Solr-Queries SELECT title FROM solr WHERE solr_query= name:jo*'; > Dokumentenweise werden die Daten im Cluster verteilt > Nutzt Cassandra Ringinformationen für Solr Distributed Search Query Cassandra Column Family Row Row Key Column Node Solr Core Document Unique Field Shard OOP 2013 Kai Spichale
12 Apache Hadoop Open Source Projekt zur Verarbeitung von großen Datenmengen (BigData) im Computercluster Skalierbar, ausfallsicher Umfangreiches Hadoop Ökosystem Hadoop Distributed File System, Hadoop MapReduce OOP 2013 Kai Spichale Hadoop MapReduce Map Phase: > Datensätze werden in Map-Funktion verarbeitet > Datenlokalität > Ergebnis sind Schlüssel-Wert-Paare Persistente Daten Map Map Map Map Shuffle/Combine Phase: > Verteilte Sortierung der Zwischenergebnisse > Sortierung und Gruppierung durch Schlüssel Transiente Daten Reduce Reduce Reduce Reduce Phase: > Verarbeitung der gruppierten Schlüssel-Wert- Paare in Reduce-Funktion Persistente Daten OOP 2013 Kai Spichale
13 Hadoop MapReduce Allgemeine Funktionsweise eines MapReduce-Jobs map(k, v) -> [(K1,V1), (K2,V2),... ] Mapper Daten Shuffle Reducer Ergebnis reduce(kn, [Vi, Vj, ]) -> (Km, R) OOP 2013 Kai Spichale Wie löst man Probleme mit MapReduce? Problemklassen ohne Reduce-Phase > Suchen > Massenkonvertierung > Sortieren > Map-Side Join Problemklassen mit Reduce-Phase > Gruppieren und Aggregieren > Reduce-Side Join OOP 2013 Kai Spichale
14 Hadoop MapReduce: Suchen Suche nach A Mapper emittiert nur Records mit Suchkriterium Daten 1: A,B,C 2: D,E 3: B,E 4: A,D 5: A,C,E Ergebnis = 1, 4, OOP 2013 Kai Spichale Hadoop MapReduce: Indizieren HDFS speichert Rohdaten (Import) Mapper indiziert Daten mit > SolrInputDocument erzeugen und StreamingUpdateSolrServer aufrufen HDFS MapReduce Job Index OOP 2013 Kai Spichale
15 Hadoop MapReduce: Indizieren Daten 1: text 2: text 3: text 4: text 5: text Mapper Ergebnis ist public void map( LongWritable key, Text val, OutputCollector<NullWritable, NullWritable> output, Reporter reporter) throws IOException { st = new StringTokenizer(val.toString()); linecounter = 0; while (st.hasmoretokens()) { doc= new SolrInputDocument(); doc.addfield("id", filename + key.tostring() + linecounter++); doc.addfield("txt", st.nexttoken()); try { server.add(doc); } catch (Exception exp) { } }} OOP 2013 Kai Spichale Apache Tika Extrahiert Metadaten und strukturierten Text aus Dokumenten Unterstützt verschiedene Formate: HTML, MS Office Dokumente, PDF, etc. Stream-Parser auch für große Dokumente geeignet Tika HDFS MapReduce Job Index OOP 2013 Kai Spichale
16 Apache Solr ist eine Programmbibliothek, kein Suchserver Suchserver: > Solr > ElasticSearch > Katta > Sphinx Tika HDFS MapReduce Job Solr Index OOP 2013 Kai Spichale Apache Flume Web Server, Applikationen Verteilter Dienst zum Sammeln, Aggregieren und Kopieren großen Datenmengen Setzt effizient Streaming-Techniken ein Fehlertolerant Flume Anwendungsfall: Logdaten sammeln Tika HDFS MapReduce Job Solr Index OOP 2013 Kai Spichale
17 Alternativen Web Server, Apps, DBs Nutch Crawler erzeugt ein Datensatz pro URL in CrawlDB Hadoop DistCp kopiert Daten innerhalb/ zwischen Hadoop-Clustern Apache Sqoop transferiert Bulk-Daten zwischen Hadoop und RDBMS Flume Crawler DistCp Sqoop Tika HDFS MapReduce Job Solr Index OOP 2013 Kai Spichale Apache Hadoop Web Content, Intranet Loading Werkzeug Fundamentaler Mismatch: > MapReduce ideal für Batch-Verarbeitung > für interaktive Suchen MapReduce zum Indizieren von großen Datenmengen Geeignet für (offline) Big-Data-Lösung möglich Hadoop Suche Analyse Export Visualisierung OOP 2013 Kai Spichale
18 Zusammenfassung Mehr semistrukturierte Daten Bedeutung von Volltextsuchen wächst Kombination von NoSQL-Store und : > Neo4j: native Integration > MongoDB: Integration mit Mongo Connector > Cassandra: Online BigData > Hadoop: Offline BigData Alternative: Suchserver als dokumentenorientierte Datenbank OOP 2013 Kai Spichale
Search-Driven Applications. Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH
Search-Driven Applications Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH Agenda Motivation Aufbau der Such-Datenstruktur Anwendungsfälle Fallstricke Was ist Suche? Was wollen
MehrANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik
ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten
MehrNoSQL. Was Architekten beachten sollten. Dr. Halil-Cem Gürsoy adesso AG. Architekturtag @ SEACON 2012 Hamburg
NoSQL Was Architekten beachten sollten Dr. Halil-Cem Gürsoy adesso AG Architekturtag @ SEACON 2012 Hamburg 06.06.2012 Agenda Ein Blick in die Welt der RDBMS Klassifizierung von NoSQL-Datenbanken Gemeinsamkeiten
MehrSuchen und Finden mit Lucene und Solr. Florian Hopf 04.07.2012
Suchen und Finden mit Lucene und Solr Florian Hopf 04.07.2012 http://techcrunch.com/2010/08/04/schmidt-data/ Suche Go Suche Go Ergebnis 1 In Ergebnis 1 taucht der Suchbegriff auf... Ergebnis 2 In Ergebnis
MehrApache HBase. A BigTable Column Store on top of Hadoop
Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,
Mehrdesign kommunikation development
http://www.dkd.de dkd design kommunikation development Apache Solr - A deeper look Stefan Sprenger, Developer dkd Olivier Dobberkau, Geschäftsführer dkd Agenda Einführung Boosting Empfehlungen Ausblick
MehrPeter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr
Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit
MehrJakarta Lucene. Eine Java-Bibliothek zur Suchindex-Erstellung. Seminararbeit Tilman Schneider
Jakarta Lucene Eine Java-Bibliothek zur Suchindex-Erstellung Seminararbeit Tilman Schneider 2004 Tilman Schneider Seminararbeit: Jakarta Lucene Folie 1 Agenda Definition: Suchmaschine Vorstellung von Jakarta
MehrApache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org
Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software
MehrNeue Ansätze der Softwarequalitätssicherung
Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik
MehrBig Data Informationen neu gelebt
Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen
MehrSQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh
SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?
MehrÜberblick und Vergleich von NoSQL. Datenbanksystemen
Fakultät Informatik Hauptseminar Technische Informationssysteme Überblick und Vergleich von NoSQL Christian Oelsner Dresden, 20. Mai 2011 1 1. Einführung 2. Historisches & Definition 3. Kategorien von
MehrHadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes
Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)
MehrEXASOL Anwendertreffen 2012
EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2
MehrXAMPP-Systeme. Teil 3: My SQL. PGP II/05 MySQL
XAMPP-Systeme Teil 3: My SQL Daten Eine Wesenseigenschaft von Menschen ist es, Informationen, in welcher Form sie auch immer auftreten, zu ordnen, zu klassifizieren und in strukturierter Form abzulegen.
MehrProf. Dr.-Ing. Rainer Schmidt 1
Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2
MehrJava Forum Stuttgart 2013 Kai.Spichale@adesso.de twitter.com/kspichale spichale.blogspot.de
NoSQL für Java-Entwickler Java Forum Stuttgart 2013 Kai.Spichale@adesso.de twitter.com/kspichale spichale.blogspot.de 23.06.2013 Agenda Datengröße Key-value Stores 1. Wide Column 2. Cassandra Document
MehrProzessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013
Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien Berlin, Mai 2013 The unbelievable Machine Company? 06.05.13 The unbelievable Machine Company
MehrISBN: 978-3-8428-0679-5 Herstellung: Diplomica Verlag GmbH, Hamburg, 2011
Nils Petersohn Vergleich und Evaluation zwischen modernen und traditionellen Datenbankkonzepten unter den Gesichtspunkten Skalierung, Abfragemöglichkeit und Konsistenz Diplomica Verlag Nils Petersohn Vergleich
MehrWeb Data Management Systeme
Web Data Management Systeme Seminar: Web-Qualitätsmanagement Arne Frenkel Agenda Einführung Suchsysteme Suchmaschinen & Meta-Suchmaschinen W3QS WebSQL WebLog Information Integration Systems Ariadne TSIMMIS
MehrHadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe
Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern
MehrFlorian Hopf www.florian-hopf.de @fhopf. elasticsearch.
Florian Hopf www.florian-hopf.de @fhopf elasticsearch. Agenda Suche Verteilung Elasticsearch und Java Aggregationen Zentralisiertes Logging Suche Suche Installation # download archive wget https://download.elastic.co/elasticsearch
MehrETL in den Zeiten von Big Data
ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse
MehrDokumentenorientierte Datenbanken - MongoDB
Dokumentenorientierte Datenbanken - MongoDB Jan Hentschel Ultra Tendency UG Übersicht Dokumente sind unabhängige Einheiten Bessere Performance (zusammengehörige Daten werden gemeinsam gelesen) Objektmodell
MehrWide Column Stores. Felix Bruckner Mannheim, 15.06.2012
Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing
Mehrvinsight BIG DATA Solution
vinsight BIG DATA Solution München, November 2014 BIG DATA LÖSUNG VINSIGHT Datensilos erschweren eine einheitliche Sicht auf die Daten...... und machen diese teilweise unmöglich einzelne individuelle Konnektoren,
MehrBig Data Mythen und Fakten
Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher
MehrJune 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration
June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen
MehrDATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER
DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER INHALTSVERZEICHNIS 1. Datenbanken 2. SQL 1.1 Sinn und Zweck 1.2 Definition 1.3 Modelle 1.4 Relationales Datenbankmodell 2.1 Definition 2.2 Befehle 3.
Mehr25.09.2014. Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz
1 2 Dies ist ein Vortrag über Zeit in verteilten Anwendungen Wir betrachten die diskrete "Anwendungszeit" in der nebenläufige Aktivitäten auftreten Aktivitäten in einer hochgradig skalierbaren (verteilten)
MehrTYPO3 Slide 1 www.lightwerk.com 2005 Lightwerk GmbH
TYPO3 Slide 1 Inhaltsverzeichnis Was ist ein CMS Was ist TYPO3 Editier-Möglichkeiten / Frontend-Editieren Slide 2 Was ist ein CMS (WCMS) Ein Web Content Management System (WCMS) ist ein Content-Management-System,
MehrNoSQL HANSER. Einstieg in die Web 2.0 Datenbanken. Stefan Edlich Achim Friedland Jens Hampe Benjamin Brauer Markus Brückner
Stefan Edlich Achim Friedland Jens Hampe Benjamin Brauer Markus Brückner NoSQL Einstieg in die Web 2.0 Datenbanken 2., akutalisierte und erweiterte Auflage HANSER Geleitwort Vorwort Vorwort zur 2. Auflage
MehrStefan Edlich Achim Friedland Jens Rampe Benjamin Brauer. NoSQL. Einstieg in die Welt nichtrelationaler Web 2.0 Datenbanken HANSER
Stefan Edlich Achim Friedland Jens Rampe Benjamin Brauer NoSQL Einstieg in die Welt nichtrelationaler Web 2.0 Datenbanken HANSER Geleitwort 1 Vorwort 1 1 Einführung 1 1.1 Historie 1 1.2 Definition und
MehrScandio SEBOL Search
: : :, München Inhalt 1. Was ist SEBOL?...3 2. Index-Server...4 2.1. Warteschlange zur Indizierung...4 2.2. Plugin-Abarbeitung...4 2.3. Erweiterte Lucene-Indizierung...4 2.4. Index-Verteilung und Management...5
Mehrdesk.modul : WaWi- Export
desk.modul : WaWi- Export Die Schnittstelle besteht aus einem Programm, welches die Daten aus der OfficeLine ausliest und in eine XML-Datei exportiert. Die Schnittstelle ist als ein eigenständiges Programm
MehrFlorian Hopf www.florian-hopf.de @fhopf. elasticsearch. Bern 07.10.2015
Florian Hopf www.florian-hopf.de @fhopf elasticsearch. Bern 07.10.2015 Agenda Suche Verteilung Elasticsearch und Java Aggregationen Zentralisiertes Logging Suche Installation # download archive wget https://download.elastic.co/elasticsearch
MehrPostgreSQL in großen Installationen
PostgreSQL in großen Installationen Cybertec Schönig & Schönig GmbH Hans-Jürgen Schönig Wieso PostgreSQL? - Die fortschrittlichste Open Source Database - Lizenzpolitik: wirkliche Freiheit - Stabilität,
MehrBigTable. 11.12.2012 Else
BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012
MehrDr. Klaus Körmeier BlueBridge Technologies AG
Dr. Klaus Körmeier BlueBridge Technologies AG Agenda Was ist ein SharePoint Wiki Anwendungsbeispiele und Erweiterungen Was ist beim Einsatz zu beachten Zusammenfassung Partner Partner BlueBridge AG SharePoint-Erfahrung
MehrWebsite-Suche mit OpenText Web Site Management. Frank Steffen - Senior Product Manager
Website-Suche mit OpenText Web Site Management Frank Steffen - Senior Product Manager Inhalt Überblick Konzepte der Suchmaschinenanbindung Verity K2 Anbindung Der neue OT Search Engine Connector Federated
MehrÜbung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz
02_Grundlagen Lucene Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz Was ist Lucene? (1) Apache Lucene is a high-performance, full-featured text search engine library written
MehrInformatik 12 Datenbanken SQL-Einführung
Informatik 12 Datenbanken SQL-Einführung Gierhardt Vorbemerkungen Bisher haben wir Datenbanken nur über einzelne Tabellen kennen gelernt. Stehen mehrere Tabellen in gewissen Beziehungen zur Beschreibung
MehrAbstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015
Abstrakt zum Vortrag im Oberseminar Graphdatenbanken Gero Kraus HTWK Leipzig 14. Juli 2015 1 Motivation Zur Darstellung komplexer Beziehungen bzw. Graphen sind sowohl relationale als auch NoSQL-Datenbanken
MehrNeue Funktionen in Innovator 11 R5
Neue Funktionen in Innovator 11 R5 Innovator for Enterprise Architects, Java Harvester und Prüfassistent 12.11.2013 Agenda 1 2 3 Einführung Was ist neu in Innovator 11 R5? Szenario Enterprise Architektur
MehrComputerlinguistik im Service Management eine neue Suche für TOPdesk
Computerlinguistik im Service Management eine neue Suche für TOPdesk Anna Hunecke Diplom Computerlinguistin TOPdesk A.Hunecke@topdesk.com Inhalt TOPdesk Suchen in TOPdesk Lucene Lucene in TOPdesk TOPdesk
MehrProgrammieren für mobile Endgeräte SS 2013/2014. Dozenten: Patrick Förster, Michael Hasseler
Programmieren für mobile Endgeräte SS 2013/2014 Programmieren für mobile Endgeräte 2 Informationen aus der Datenbank lesen Klasse SQLiteDatabase enthält die Methode query(..) 1. Parameter: Tabellenname
MehrMapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce
MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:
MehrAK Medientechnologien 05 Delegation
AK Medientechnologien 05 Delegation TableViews, XML Parser, Application Josef Kolbitsch josef.kolbitsch@tugraz.at http://businesssolutions.tugraz.at/ Übersicht Allgemeines zum Delegation Pattern Theoretische
MehrHadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011
High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten
MehrSoftware Engineering in der Praxis
Software Engineering in der Praxis Praktische Übungen Meitner, Spisländer FAU Erlangen-Nürnberg Versionskontrolle 1 / 30 Versionskontrolle Matthias Meitner Marc Spisländer Lehrstuhl für Software Engineering
MehrMöglichkeiten für bestehende Systeme
Möglichkeiten für bestehende Systeme Marko Filler Bitterfeld, 27.08.2015 2015 GISA GmbH Leipziger Chaussee 191 a 06112 Halle (Saale) www.gisa.de Agenda Gegenüberstellung Data Warehouse Big Data Einsatz-
MehrHadoop. Simon Prewo. Simon Prewo
Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert
MehrCarl-Engler-Schule Karlsruhe Datenbank 1 (5)
Carl-Engler-Schule Karlsruhe Datenbank 1 (5) Informationen zur Datenbank 1. Definition 1.1 Datenbank-Basis Eine Datenbank-Basis ist eine Sammlung von Informationen über Objekte (z.b Musikstücke, Einwohner,
MehrVirtueller Seminarordner Anleitung für die Dozentinnen und Dozenten
Virtueller Seminarordner Anleitung für die Dozentinnen und Dozenten In dem Virtuellen Seminarordner werden für die Teilnehmerinnen und Teilnehmer des Seminars alle für das Seminar wichtigen Informationen,
MehrNoSQL. Einblick in die Welt nicht-relationaler Datenbanken. Christoph Föhrdes. UnFUG, SS10 17.06.2010
NoSQL Einblick in die Welt nicht-relationaler Datenbanken Christoph Föhrdes UnFUG, SS10 17.06.2010 About me Christoph Föhrdes AIB Semester 7 IRC: cfo #unfug@irc.ghb.fh-furtwangen.de netblox GbR (http://netblox.de)
MehrEin Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?
Ein Beispiel Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Dipl.-Kfm. Claus Häberle WS 2015 /16 # 42 XML (vereinfacht) visa
MehrGeneralisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE
Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de
MehrUmsetzung von BI-Lösungen mit Unterstützung einer Suchmaschine. TDWI Stuttgart 15.04.2015 Tobias Kraft, exensio GmbH
Umsetzung von BI-Lösungen mit Unterstützung einer Suchmaschine TDWI Stuttgart 15.04.2015 Tobias Kraft, exensio GmbH Suchmaschinen Elasticsearch BI-Stack mit Elasticsearch Use Cases Pharmabranche 2 Funktionen
MehrJavakurs zu Informatik I. Henning Heitkötter
Javakurs zu Informatik I Arrays vergleichen Implementieren Sie folgende Methode, die prüft, ob die Elemente der beiden Arrays an jeder Position übereinstimmen: public static boolean identisch(int[] a,
MehrAllgemeines zu Datenbanken
Allgemeines zu Datenbanken Was ist eine Datenbank? Datensatz Zusammenfassung von Datenelementen mit fester Struktur Z.B.: Kunde Alois Müller, Hegenheimerstr. 28, Basel Datenbank Sammlung von strukturierten,
Mehr7. Übung - Datenbanken
7. Übung - Datenbanken Informatik I für Verkehrsingenieure Aufgaben inkl. Beispiellösungen 1. Aufgabe: DBS a Was ist die Kernaufgabe von Datenbanksystemen? b Beschreiben Sie kurz die Abstraktionsebenen
Mehrà la Carte KMU - Lösungen im Alltag für Filemaker und das Web
à la Carte KMU - Lösungen im Alltag für Filemaker und das Web Filemaker + Web Zielgruppe: - Kunde: - KMU s - Filemaker-erfahrene Anwender - Ansprüche: Umsetzung individuell, sofort, einfach - IT: - FM,
MehrDehnbarer Begriff Verteiltes Suchen mit Elasticsearch
Dehnbarer Begriff Verteiltes Suchen mit Elasticsearch Dr. Halil-Cem Gürsoy halil-cem.guersoy@adesso.de www.adesso.de ...über mich 15 Jahre Entwicklung und Beratung 'Software Architect' bei adesso AG, Dortmund
MehrCassandra Query Language (CQL)
Cassandra Query Language (CQL) Seminar: NoSQL Wintersemester 2013/2014 Cassandra Zwischenpräsentation 1 Gliederung Basic facts Datentypen DDL/DML ähnlich zu SQL Besonderheiten Basic facts CQL kurz für
MehrFachbericht zum Thema: Anforderungen an ein Datenbanksystem
Fachbericht zum Thema: Anforderungen an ein Datenbanksystem von André Franken 1 Inhaltsverzeichnis 1 Inhaltsverzeichnis 1 2 Einführung 2 2.1 Gründe für den Einsatz von DB-Systemen 2 2.2 Definition: Datenbank
MehrDefinition Informationssystem
Definition Informationssystem Informationssysteme (IS) sind soziotechnische Systeme, die menschliche und maschinelle Komponenten umfassen. Sie unterstützen die Sammlung, Verarbeitung, Bereitstellung, Kommunikation
MehrBig Data Management Thema 14: Cassandra
Thema 14: Cassandra Jan Kristof Nidzwetzki Thema 14: Cassandra 1 / 25 Übersicht 1 Grundlagen Überblick Geschichte Datenmodel 2 Architektur Der logische Ring Persistenz der Daten Tunable Consistency Read
MehrBest Practice: Integration von RedDot mit Livelink DM im Intranet/Extranet
Competence for the next level. Best Practice: Integration von RedDot mit Livelink DM im Intranet/Extranet Als Internet Company realisieren wir erfolgreiche E-Business Projekte für den Mittelstand & Großunternehmen.
MehrSie haben Ihr Ziel erreicht
Sie haben Ihr Ziel erreicht Innovative Weblösungen aus einer Hand. Sysgrade - intelligent internet. Agenda Überblick behalten! A) TYPO3 Standardsuche: indexed search Funktionsweise Vor- und Nachteile Erweiterungen
MehrDataTables LDAP Service usage Guide
DataTables LDAP Service usage Guide DTLDAP Usage Guide thomasktn@me.com / www.ktn.ch Benutzung des DTLDAP Service DataTables Der Service stellt einen JSON Feed für DataTables (http://www.datatables.net)
MehrPRESman. Presentation Manager. Reduzieren Sie nachhaltig die Kosten für das. Erstellen, Verwalten und Verteilen Ihrer
Reduzieren Sie nachhaltig die Kosten für das Erstellen, Verwalten und Verteilen Ihrer Präsentationen durch eine effiziente Folienverwaltung Sie kennen die Situation Ein Vortrag muss kurzfristig vorbereitet
MehrAufgaben zu XPath und XQuery
Aufgaben zu XPath und XQuery Dr. Arno Schmidhauser Letzte Revision: März 2005 Email: arno.schmidhauser@sws.bfh.ch Webseite: http://www.sws.bfh.ch/db Inhalt 1 XPath... 2 2 XQuery... 2 3 XPath/SQL Umsetzung...
MehrDateisysteme und Datenverwaltung in der Cloud
Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1
MehrTechnische Aspekte einer Videosuchmaschine. Björn Wilmsmann, CEO - MetaSieve GmbH
Technische Aspekte einer Videosuchmaschine Björn Wilmsmann, CEO - MetaSieve GmbH 1 Über MetaSieve http://www.metasieve.com Softwareentwicklung Internet Software Spezialisiert auf Suchmaschinentechnologie
MehrBearbeitung und Download von grossen Datenmengen in STAT-TAB
Eidgenössisches Departement des Innern EDI Bundesamt für Statistik BFS Publikation und Kommunikation 18. Februar 2014 Bearbeitung und Download von grossen Datenmengen in STAT-TAB Dieses Dokument richtet
MehrWI EDI Solution. Stand 17.02.2012
WI EDI Solution Stand 17.02.2012 WIAG Überblick 2011 - SAP, SAP BW, SAP SEM/BPS, SAP BPC, SAP R/3, ABAP, Netweaver sind eingetragene Warenzeichen der SAP AG, Walldorf Folie 1 Inhalt Was ist WIEDIS? IDOC
MehrMatrix42. Use Case - Inventory. Version 1.0.0. 12. Februar 2013 - 1 -
Matrix42 Use Case - Inventory Version 1.0.0 12. Februar 2013-1 - Inhaltsverzeichnis 1 Einleitung 3 1.1 Beschreibung 3 1.2 Vorbereitung 3 1.3 Ziel 3 2 Use Case 4 2.1 Die Inventory-Daten 4 2.2 Die Listenübersicht
MehrVerarbeitung der Eingangsmeldungen in einem Callcenter
Q-up ist ein Produkt der: Anwendungsbeispiele Verarbeitung der Eingangsmeldungen in einem Callcenter Der Testdatengenerator Der Testdatengenerator Verarbeitung der Eingangsmeldungen in einem Callcenter
MehrHandbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken
Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen
MehrEHCache und Terracotta. Jochen Wiedmann, Software AG
EH und Terracotta Jochen Wiedmann, Software AG Autor Perl-Contributor DBD::mySQL 2, DBI::Proxy, DBI::Shell, DBD::CSV, Net::Daemon, RPC::Pl(Client Server) (Autor) DBI (Developer) ASF-Member (Apache Software
MehrWie Google Webseiten bewertet. François Bry
Wie Google Webseiten bewertet François Bry Heu6ge Vorlesung 1. Einleitung 2. Graphen und Matrizen 3. Erste Idee: Ranking als Eigenvektor 4. Fragen: Exisi6ert der Eigenvektor? Usw. 5. Zweite Idee: Die Google
MehrDatenstrukturen & Algorithmen
Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Binäre Suchbäume Einführung und Begriffe Binäre Suchbäume 2 Binäre Suchbäume Datenstruktur für dynamische Mengen
MehrApache Lucene und Oracle in der Praxis - Volltextsuche in der Cloud
Apache Lucene und Oracle in der Praxis - Volltextsuche in der Cloud Frank Szilinski, esentri software GmbH Dominic Weiser, esentri consulting GmbH Ettlingen Schlüsselworte: Apache Lucene, Apache Solr,
Mehrcrm-now/ps Webforms Webdesigner Handbuch Erste Ausgabe
crm-now/ps Webforms Webdesigner Handbuch Erste Ausgabe crm-now/ps Webforms: Webdesigner Handbuch Copyright 2006 crm-now Versionsgeschichte Version 01 2006-08-21 Release Version crm-now c/o im-netz Neue
MehrIhre Interessentendatensätze bei inobroker. 1. Interessentendatensätze
Ihre Interessentendatensätze bei inobroker Wenn Sie oder Ihre Kunden die Prozesse von inobroker nutzen, werden Interessentendatensätze erzeugt. Diese können Sie direkt über inobroker bearbeiten oder mit
Mehrnovapro Open Audittrail Report
novapro Open Audittrail Report Bedienungshandbuch 7001042001 Q11 Diese Beschreibung entspricht dem aktuellen Programmstand Version 1.0. Änderungen erfolgen zu jeder Zeit und ohne vorherige Ankündigung.
MehrLokale Installation von DotNetNuke 4 ohne IIS
Lokale Installation von DotNetNuke 4 ohne IIS ITM GmbH Wankelstr. 14 70563 Stuttgart http://www.itm-consulting.de Benjamin Hermann hermann@itm-consulting.de 12.12.2006 Agenda Benötigte Komponenten Installation
Mehr4. Hierarchische und netzwerkartige Datenbankmodelle
4. Hierarchische und netzwerkartige Datenbankmodelle 4.1 Hierarchische Datenbanken Hierarchien können durch Baumgraphen beschrieben werden. Datensätze einer hierarchischen Datenbank (HDB) sind in Segmenten
MehrMobiles SAP für Entscheider. Permanente Verfügbarkeit der aktuellen Unternehmenskennzahlen durch den mobilen Zugriff auf SAP ERP.
Beschreibung Betriebliche Kennzahlen sind für die Unternehmensführung von zentraler Bedeutung. Die Geschäftsführer oder Manager von erfolgreichen Unternehmen müssen sich deshalb ständig auf dem Laufenden
MehrDatenbanken SQL Einführung Datenbank in MySQL einrichten mit PhpMyAdmin
Datenbanken SQL Einführung Datenbank in MySQL einrichten mit PhpMyAdmin PhpMyAdmin = grafsches Tool zur Verwaltung von MySQL-Datenbanken Datenbanken erzeugen und löschen Tabellen und Spalten einfügen,
Mehrpeer-to-peer Dateisystem Synchronisation
Ziel Realisierungen Coda Ideen Fazit Literatur peer-to-peer Dateisystem Synchronisation Studiendepartment Informatik Hochschule für Angewandte Wissenschaften Hamburg 30. November 2007 Ziel Realisierungen
MehrDatabase Exchange Manager. Infinqa IT Solutions GmbH, Berlin Stralauer Allee 2 10245 Berlin Tel.:+49(0) 30 2900 8639 Fax.:+49(0) 30 2900 8695
Database Exchange Manager Replication Service- schematische Darstellung Replication Service- allgemeines Replikation von Daten von bzw. in ein SAP-System und einer relationalen DMS-Datenbank Kombination
MehrMercury Data Scanner. Daten-Extraktion Dynamische Barcodes Dokumentenarchivierung Re-Formatierung Print On Demand
Mercury Daten-Extraktion Dynamische Barcodes Dokumentenarchivierung Re-Formatierung Print On Demand Mercury & 22 2 Schematische Übersicht Overlays PCL5... PCL Postscript CSV... Overlay Manager Job Separator
MehrXINDICE. The Apache XML Project 3.12.09. Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de
Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de 3.12.09 HKInformationsverarbeitung Kurs: Datenbanken vs. MarkUp WS 09/10 Dozent: Prof. Dr. M. Thaller XINDICE The Apache XML Project Inhalt Native
MehrAblauf. Redaktions-Schulung. Schulungs Unterlagen. Typo3
Redaktions-Schulung Verein Netwerk Logistik 7. März 2008 Ralph Zimmermann Ablauf Redaktionssystem Allgemein Login Aufbau von Typo3 Seitenelemente Seitenelemente - Editieren /Hinzufügen Neue Seite anlegen
MehrTechNote. Produkt: TWINFAX 7.0 (ab CD_24), TWINFAX 6.0 Modul: SMTP, T611, R3 Kurzbeschreibung: Briefpapier- und Mailbodyunterstützung
Produkt: TWINFAX 7.0 (ab CD_24), TWINFAX 6.0 Modul: SMTP, T611, R3 Kurzbeschreibung: Briefpapier- und Mailbodyunterstützung Diese Anleitung hilft Ihnen, das nachfolgend geschilderte Problem zu beheben.
Mehr12. Dokumente Speichern und Drucken
12. Dokumente Speichern und Drucken 12.1 Überblick Wie oft sollte man sein Dokument speichern? Nachdem Sie ein Word Dokument erstellt oder bearbeitet haben, sollten Sie es immer speichern. Sie sollten
MehrSAP NetWeaver Gateway. Connectivity@SNAP 2013
SAP NetWeaver Gateway Connectivity@SNAP 2013 Neue Wege im Unternehmen Neue Geräte und Usererfahrungen Technische Innovationen in Unternehmen Wachsende Gemeinschaft an Entwicklern Ausdehnung der Geschäftsdaten
MehrReferenzielle Integrität SQL
Referenzielle Integrität in SQL aus Referential Integrity Is Important For Databases von Michael Blaha (Modelsoft Consulting Corp) VII-45 Referenzielle Integrität Definition: Referenzielle Integrität bedeutet
Mehr