Einführung in Apache Solr

Ähnliche Dokumente
Einführung in. Apache Solr PRAXISEINSTIEG IN DIE INNOVATIVE SUCHTECHNOLOGIE. Markus Klose & Daniel Wrigley

Einführung in. Apache Solr PRAXISEINSTIEG IN DIE INNOVATIVE SUCHTECHNOLOGIE. Markus Klose & Daniel Wrigley

Inhalt. Vorwort... Einleitung...

Suchen und Finden mit Lucene und Solr. Florian Hopf

design kommunikation development

Apache Lucene und Oracle in der Praxis - Volltextsuche in der Cloud

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Search Evolution von Lucene zu Solr und ElasticSearch

Apache Lucene und Oracle in der Praxis Volltextsuche in der Cloud. DOAG 2011 Konferenz + Ausstellung Frank Szilinski & Dominic Weiser, esentri

Geodatensuche im Geoportal.de Einsatz von Solr. Tim Balschmiter Bundesamt für Kartographie und Geodäsie Referat GI8 - Geodateninfrastrukturleistungen

Apache. O'REILLY Beijing Cambridge Farnham Köln Paris Sebastopol Taipei Tokyo. Das umfassende Handbuch. Ben Laurie und Peter Laurie 2.

Alternativen zur OpenText Suche. 29. OpenText Web Solutions Anwendertagung Mannheim, 18. Juni 2012 Sebastian Henne

Relevantes schneller finden mit Lucene und Solr

Lucene in a Nutshell. Wie erstelle ich eine Suchanwendung mit Hilfe von Lucene? Bonsai-Tagung vom Conni Poppe

Florian Hopf elasticsearch. Bern

Federated Search: Integration von FAST DataSearch und Lucene

Enterprise Search. Präsentation zur Seminararbeit. im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme

Sprecher. Stephan Krauß Enterprise Portale E-Commerce. Dipl.-Phys. Johannes Knauf Business Analytics Data Science

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

Die hbz-öb-datenbank in der Suchmaschine Christine Baron, Roswitha Schweitzer. 10. DigiBib-Anwendertreffen, Dortmund

Search Evolution von Lucene zu Solr und ElasticSearch. Florian

Search-Driven Applications. Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH

Florian Hopf elasticsearch.

Dehnbarer Begriff Verteiltes Suchen mit Elasticsearch

Mischen possible! Ranking und Facettierung heterogener Datenquellen

Überblick über das Oracle Internet File System. PEGAS systemhaus 2001 PEGAS Firmenpräsentation

Website-Suche mit OpenText Web Site Management. Frank Steffen - Senior Product Manager

Christian Meder & Andrew Kenworthy inovex. Lucenes Welt Ordnen, finden, klassifizieren

ERWEITERUNG CONTAO INDEXIERUNG - SUCHE AUF OFFICE- UND PDF-DATEIEN

Praxiswissen Drupal 7

Auf einen Blick. 1 Einführung Die Grundlagen Praxis 1 - das Kassenbuch. (zentraler CouchDB-Server) 139

Mailmanagement mit IMAP

Relevance Ranking Revisited Mischen unterschiedlicher Quellen in VuFind

APEX und Drucken! - Die Schöne und das Biest!

Eclipse, Spring und OSGi 1

VuFind Freie Suchmaschinentechnologie im Web

Suchportale und Intranet- Suchmaschinen mit YaCy... und Beispiele von Anwendern

SODA. Die Datenbank als Document Store. Rainer Willems. Master Principal Sales Consultant Oracle Deutschland B.V. & Co. KG

Praktikum Information Retrieval Wochen 12: Suchmaschine

Fuzzy-Suche in Application Express

Dirk Ammelburger XML. Grundlagen der Sprache und Anwendungen in der Praxis HANSER

1 Einführung Die Grundlagen Praxis 1 das Kassenbuch (zentraler CouchDB-Server) Praxis 2 das Kassenbuch als CouchApp...

O'REILLY 8 Beijing Cambridge Farnham Köln Sebastopol Taipei Tokyo. Reguläre Ausdrücke Kochbuch. Jan Goyvaerts & Steven Levithan

Zukunft der Oracle Applikationsentwicklung: BC4J & XML

Deutsche und mehrsprachige Volltextsuche mit Apache Solr

Inhaltsverzeichnis. Stefan Edlich, Achim Friedland, Jens Hampe, Benjamin Brauer, Markus Brückner. NoSQL

APEX OOS TOOLS & HELFER

Serena Schulungsplan 2017

Übersicht. Grundidee des Indexing Lucene Wichtige Methoden und Klassen Lucene Indizierungsbeispiele Lucene Suchbeispiele Lucene QueryParser Syntax

Suche für Anwender in SharePoint 2013

Einführung in Python. O'REILLY 8 Beijing Cambridge Farnham Köln Paris Sebastopol Taipei Tokyo. Mark Lutz & David Ascher

Module für eine Java-Administrationsschulung

Florian Hopf Anwendungsfälle für

Hochverfügbare Webanwendungen mit Apache Cassandra. msg systems ag, 26. November 2014

IN A NUTSHELL. Elliotte Rusty Harold & W, Scott Means. Deutsche Übersetzung von Kathrin Lichtenberg & Jochen Wiedmann O'REILLY*

QBus Enterprise Service Bus. intersales Creating the Digital Enterprise

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz

Agenda. Anwendungsfälle. Integration in Java

Elasticsearch und die Oracle Datenbank

3. AUFLAGE. Praxishandbuch VMware vsphere 6. Ralph Göpel. O'REILLY Beijing Cambridge Farnham Köln Sebastopol Tokyo

Tomcat Konfiguration und Administration

Das Leben der Anderen

MyCoRe > V1.0: Technische Weiterentwicklung

Sitepark Information Enterprise Server - die Technologie-Plattform von Sitepark

Inhaltsverzeichnis. Bernd Weber, Patrick Baumgartner, Oliver Braun. OSGi für Praktiker

Programmieren mit Edipse 3

Big Data in der Praxis

COMPUTER- FORENSIK HACKS

Criteria API: Komplexe SQL Queries mit Eclipslink bauen

Stefan Edlich, Achim Friedland, Jens Hampe, Benjamin Brauer. NoSQL. Einstieg in die Welt nichtrelationaler Web 2.0 Datenbanken ISBN:

Um asynchrone Aufrufe zwischen Browser und Web Anwendung zu ermöglichen, die Ajax Hilfsmittel DWR ist gebraucht.

Eclipse Test and Performance Tools Platform (TPTP)

4. AUFLAGE. Praxiswissen TYP03. Robert Meyer mit Olaf Clemens. O'REILLY* Beijing Cambridge Farnham Köln Sebastopol Taipei Tokyo

Einführung in Perl O'REILLY" 2. Auflage. Randal L. Schwartz & Tom Christiansen. Deutsche Übersetzung von Matthias Kalle Dalheimer

Suchmaschinen. Bachelor Informationsmanagement / Modul Digitale Bibliothek (SS 2014) Dr. Jakob Voß

ONET: FT-NIR-Netzwerke mit zentraler Administration & Datenspeicherung. ONET Server

Mail Integration Solution White Paper

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008

WildFly Application Server Administration

Schnelleinstieg, Installation und Einrichtung System Concept DMS

Aufbau eines Discovery Systems für den HeBIS-Verbund

Swoogle. Patrice Matthias Brend amour

Webentwicklung mit Vaadin 7. Theoretische und praktische Einführung in Vaadin 7. Christian Dresen, Michael Gerdes, Sergej Schumilo

Richard Oates Thomas Langer Stefan Wille Torsten Lueckow Gerald Bachlmayr. Spring & Hibernate. Eine praxisbezogene Einführung HANSER

Transkript:

Einführung in Apache Solr Markus Klose & Daniel Wrigley O'REILLY Beijing Cambridge Farnham Köln Sebastopol Tokyo

Inhalt Vorwort IX Einleitung XI 1 Schnelleinstieg in Solr 1 Was ist Solr? 1 Was ist Lucene? 2 Was kann Solr? 2 Features 2 Community 5 Einsatzmöglichkeiten 5 Ein kurzer historischer Rückblick 6 Also ist Solr Google? 6 Erste Schritte - Solr entpacken und starten 7 Apache Solr herunterladen 7 Apache Solr starten 7 Inhalte indexieren 10 Die erste Suche 11 Die ersten Ergebnisse 13 2 Die Konzepte von Solr kennenlernen 15 Apache Solr innerhalb einer Applikation 15 Der Grundaufbau von Solr 17 Indexierung - UpdateRequestFlandler 17 Suche und Suchfeatures - SearchHandler 18 Echtzeitsuche - RealTimeGetHandler 21 Rückgabe des Ergebnisses - ResponseWriter 23 I v

Administration - AdminHandler Ausfallsicherheit - ReplicationHandler Architektur innerhalb einer Solr-Instanz - CoreAdminHandler Die Indexierung - Out-of-the-Box-Möglichkeiten 45 Indexierung von XML-, CSV-, JSON-Dateien - UpdateRequestHandler... 45 Extraktion von Inhalt - Solr Cell - ExtractingRequestHandler 48 Datenbanken, RSS, Wikipedia,... indexieren - DatalmportHandler 50 Beeinflussung des Indexierungsprozesses - UpdateRequestProcessors 59 Die Suche - Wie kann ich suchen? 07 Einfache Suche - Termsuche 07 Boolesche Operatoren 08 Einsatz von Wildcards 70 Query Parser 71 Fuzzy Search - Ungenaue Suche 80 Phrasensuche mit dem Lucene Query Parser 81 Range-Queries 81 Filter-Queries 82 Sortierung 82 d5 ^ i5 3 Den Index konfigurieren 85 Der Lucene-Index 85 Operationen auf dem Index 80 Die Schema-Konfiguration 90 Solr-Feld typen 91 Solr-Felder 94 Allgemeine Einstellungen 96 Der Analyse-Prozess 98 Konfiguration des Analyse-Prozesses 98 1. Schritt: CharFilter 100 2. Schritt: Tokenizer 102 3. Schritt: TokenFilter 106 Typische Anwendungsfälle der Analyse 117 Die sprachspezifische Analyse 121 Das Analyse-Interface 124 Ein Blick in den Index 128 4 Was kann Solr out-of-the-box? 133 Die Konfigurationsdatei solrconfig.xml 133 Allgemeine Einstellungen 134 VI Inhalt

Index-Einstellungen 135 Query-Einstellungen 136 Request Dispatcher-Einstellungen 137 Konfiguration der Admin-Oberfläche 137 Such-Features out-of-the-box 138 Velocity und der /browse-requesthandler 138 Facetten - Suchergebnisse verfeinern 141 AutoSuggest - Suchbegriffe vorschlagen 151 Highlighting - Suchbegriffe im Treffer hervorheben 156 Result Grouping - ähnliche Dokumente gruppieren 160 Meinten Sie...- Tippfehler ausbessern 164 MoreLikeThis - ähnliche Dokumente finden 169 Elevate - Top-Treffer definieren 174 Terms-Komponente - Solr-Felder auslesen 178 TermVector-Komponente - Term-Informationen auswerten 183 Stats-Komponente - statistische Auswertung 186 /browse-requesthandler für die Wikipedia 188 5 Scoring und Relevanz beeinflussen 191 Precision versus Recall 191 Den Scoring-Mechanismus verstehen 193 Konstantes Scoring 193 Lucene-Scoring 194 Der TF-IDF-Algorithmus 194 Custom-TF-IDF-Scoring 197 Scoring-Probleme analysieren 198 Lucenes Explain TF-IDF-Funktionalität 198 Das Scoring beeinflussen 203 Query Parser für die Scoring-Manipulation nutzen 203 Mit FunctionQueries das Scoring beeinflussen 209 Typische Scoring-Anwendungsfälle 215 6 Skalierung der Suche- die Solr-Architektur gestalten 219 Master/Slave-Architektur 219 Indexierung 224 Replication 224 Mit Replication Backups erstellen 232 SolrCloud 234 Reichen Replication und Sharding nicht aus? 234 Inhalt VII

SolrCloud - Diese Gedanken stecken hinter dieser Innovation 234 Who is Who oder: Die Terminologie der SolrCloud 235 Zero-Installation - einfach loslegen 236 Indexieren und Suchen in der SolrCloud 239 Erhöhung der Ausfallsicherheit der Administrationsseite - externes ZooKeeper-Ensemble 240 Mehr Infos - clusterstate.json 250 SolrCloud-Verwaltung - Collections-API 252 Wohin gehen meine Dokumente? - Document Routing 263 Verwaltung mehrerer Collections in der SolrCloud 266 Pitfalls - Auf was Sie sonst noch achten sollten 268 7 Ein Blick über den Tellerrand 271 Mit Solr arbeiten - Client-APIs 271 Liste der verfügbaren Client-APIs 272 Der Java-Client - SolrJ 273 Deployment von Solr in Apache Tomcat 274 Tomcat-Download 275 Tomcat-Installation 275 Solr-Deployment 276 Monitoring Ihrer Solr-Installation 278 JMX-Aktivierung und Tools 278 Log-Auswertung 283 Die Community - Wie kann ich zum Projekt beitragen? 285 Die Apache Software Foundation 286 Apache Hadoop - Lösung für verteilte Systeme 287 Apache Mahout - Clustering, Klassifikation & Recommendations 288 Apache Stanbol - Content Enrichment 291 Apache OpenNLP - Verarbeitung natürliche Sprache 293 Apache Nutch - Webseiten crawlen 294 Apache ManifoldCF - flexibles Crawling-Framework 294 Die Konkurrenz - Elasticsearch 295 Die Deutsche Wikipedia mit Elasticsearch indexieren 295 Glossar 303 Index 313 VIII I Inhalt