Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org



Ähnliche Dokumente
Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

design kommunikation development

Google Eine kurze Anleitung Stand: 3. August 2010

Benutzeranleitung archiv.ch

Scandio SEBOL Search

Google Caffeine. Was ist es, was ändert sich, wie bereite ich mich vor?

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

News & RSS. Einleitung: Nachrichten er-(veröffentlichen) und bereitstellen Nachrichten erstellen und bereitstellen

Neue Ansätze der Softwarequalitätssicherung

Sie haben Ihr Ziel erreicht

Anleitung zur Bearbeitung von Prüferkommentaren in der Nachreichung

Einzelplatz - USB-Lizenz

Apache HBase. A BigTable Column Store on top of Hadoop

Lokale Installation von DotNetNuke 4 ohne IIS

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Installationsanleitung SSL Zertifikat

Tevalo Handbuch v 1.1 vom

Anleitung zur Installation und Verwendung von eclipseuml 2.1.0

2. KOMMUNIKATIONSTAG Frau in der Wirtschaft. Vortrag 3x7 Tipps für Ihr Suchmaschinen Marketing

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

schiller software PLUS vollkomm vdms Vollstreckungs-DokumentenManagement Effektives Vollstreckungsmanagement!

Outlook Web App 2010 Kurzanleitung

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

XINDICE. The Apache XML Project Name: J acqueline Langhorst blackyuriko@hotmail.de

Referenzprojekt Lenka B. Seite 1

Kleines Handbuch zur Fotogalerie der Pixel AG

Bibliotheksprogramm (WebOPAC) Schritt-für-Schritt-Anleitung. ohne Ausleihe

Apache Software Foundation

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

WACON Internet GmbH. Support für google Analytics. Nollenweg Idstein-Oberrod. Phone: Fax:

Integration von XPhone Virtual Directory auf OpenStage 60/80 Telefonen

In 5 Klicks zum Vorlesungsverzeichnis Stud.IP und TYPO3 integriert

COMPUTERIA VOM Wenn man seine Termine am Computer verwaltet hat dies gegenüber einer Agenda oder einem Wandkalender mehrere Vorteile.

Big Data Informationen neu gelebt

LabTech RMM. Integration von Teamviewer. Vertraulich nur für den internen Gebrauch

Dokumentatationskosten senken durch effiziente Single Source Verfahren

RIGGTEK. Dissolution Test Systems. DissoPrep Browser-Interface

Copyright & Copyriot

Offizielle Webpräsenz für Gruppenführer. Erstellen von Inhalten

TBooking: Integration der Online-Buchung auf der eigenen Homepage. Version 1.0. Bayern Reisen & Service GmbH Im Gewerbepark D Regensburg

SCRIBUS WORKSHOP Handout Gimp

Was ist Custom Search?

Installation des CMS-Systems Contao auf einem Windows-Rechner mit XAMPP

Der beste Plan für Office 365 Archivierung.

Loslegen mit Contrexx: In 10 Schritten zur professionellen Webseite.

Blumen-bienen-Bären Academy. Kurzanleitung für Google Keyword Planer + Google Trends

Lizenzierung von Windows Server 2012

Shellfire PPTP Setup Windows 7

PRESman. Presentation Manager. Reduzieren Sie nachhaltig die Kosten für das. Erstellen, Verwalten und Verteilen Ihrer

Wann benötigen Sie eine neue Lizenz-Datei mit der Endung.pkg?

Ihr Weg in die Suchmaschinen

2. Word-Dokumente verwalten

Sicherheit von Open Source Software

White Paper DocCheck Search

InfoPoint vom 9. November 2011

IAWWeb PDFManager. - Kurzanleitung -

Migration von statischen HTML Seiten

Jakarta Lucene. Eine Java-Bibliothek zur Suchindex-Erstellung. Seminararbeit Tilman Schneider

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Online - Zusammenarbeit bei Google

LuVHS. Version: ARONET GmbH Alle Rechte vorbehalten.

IntelliRestore Seedload und Notfallwiederherstellung

Update Information. Independence Pro Software Suite 3.0 & Sound Libraries

HMC WEB INDEX. Erste große Deutschland Studie. Wie fit sind die Clubs im online marketing?

JSCMS Dokumentation. (Stand: )

schooltas offline Modus mit der Google Chrome App

Suchmaschinenoptimierung

Psyprax GmbH. Wichtig für alle Netzwerkinstallationen: Psyprax GmbH

Maßgeschneiderte Suchmaschinen

Geben Sie in dem offenen Suchfeld den Namen Ihrer Einrichtung ein und klicken Sie auf Suchen.

Digitale Checklisten sparen Zeit und Geld. Stellen Sie jetzt um von Papier auf eine moderne digitale Lösung.

Sie erhalten in diesem Dokument einige Tipps, wie Sie die Anzeigegeschwindigkeit für Ihre Eingabe optimieren. Folgende Themen finden Sie

Content-Management- Systeme (CMS) Inhaltsverwaltungssystem, Redaktionssystem

PDF-Druck und PDF-Versand mit PV:MANAGER

BIF/SWE 1 - Übungsbeispiel

e-books aus der EBL-Datenbank

Albert Dengg. Graz,

Serviceanweisung Austausch Globalsign Ausstellerzertifikate

AdWords MEHR ERFOLG FÜR IHREN FIXFERTIG SHOP

Maßnahmen zur Verbesserung der Position in Suchmaschinenergebnissen

Handbuch B4000+ Preset Manager

Mit suchmaschinenoptimierten Übersetzungen erfolgreich mit fremdsprachigen Webseiten

Eclipse Plugins für die komfortablere Verwendung von ibatis SQLMaps

INSTALLATION OFFICE 2013

Website-Suche mit OpenText Web Site Management. Frank Steffen - Senior Product Manager

Zertifikat in dakota einlesen Wie lese ich mein Zertifikat in dakota.le ein?

Data Mining im Internet

Inkrementelles Backup

PC Software PPS-FM11 Windows Auswertung und Monitor BDE Betriebsdatenerfassung mit Terminals, RFID und SQL Client

Schlechte Internetseite

Erste Schritte mit WordPress Anleitung WordPress Version 2.8.X

Kurzanleitung. TSE Verwaltungssoftware Installation

Diese Produkte stehen kurz vor end of support 14. Juli Extended Support

Vodafone Conferencing Meeting erstellen

Hilfe zur Dokumentenverwaltung

Abenteuer e-commerce Erfolgreich mit dem eigenen Onlineshop.

Schulung Marketing Engine Thema : CRM Übersicht Funktionen

Transkript:

Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1

Apache Apache Software Foundation Software free of charge Apache Software License Free + Open + Source Betonung liegt auf der Community problemlos in Closed Source verwendbar siehe ASF Session um 16:50 Uhr 2

Was macht Google, eigentlich? 3

ohne Freitextsuche Navigation in Bäumen Titel des gesuchten Dokumentes ist wesentlicher Anhaltspunkt öffnen vieler Dokumente, die nicht gesucht wurden zeitaufwendig alle Aktionen werden vom User ausgeführt Erwartungshaltung des Users: googeln 4

mit Freitextsuche alle Treffer auf einer Ebene, keine Bäume Treffer innerhalb von Dokumenten relevante Treffer sind schnell zugänglich Vorschau erlaubt direktes Filtern 5

Ablauf einer Freitextsuche vor der Suche (Computerprogramm) Texte (Webseiten) finden und einlesen (Crawler) Index aufbauen Index speichern und bereitstellen Webseite mit Suchformular 6

Ergebnis, inkl. Vorschau anzeigen 7 Ablauf einer Freitextsuche während der Suche Suchanfrage eingeben (User) Stichworte entgegennehmen (Computer) daraus eine Suchanfrage bilden Index durchsuchen (schnell!) Ergebnisse nach Relevanz sortieren

Lucene Produkte Apache Lucene Suchmaschinen- Framework, Index Apache Nutch Crawler + Indexer Apache Solr Suchmaschinen-Server 8

Apache Lucene Features Indizieren von beliebigen Business-Daten Ablage in speziellen Files Formulierung von Suchanfragen Durchführung der Suche (Finden) Rückgabe der Ergebnisse, Ranking 9

Eigene Daten einspeisen Text, Text, Text HTML, XML PDF, Office-Formate Product {Name, Datum, Beschreibung, Attribute, Typ} File {Name, Content, Kind-Files} 10

Sucheanfragen premium, top five pre*, pre~ premium special, premium OR special premium AND -name:premium datum:[20070101 TO 20081231] 11

Ergebnisaufbereitung Ranking der Ergebnisse Fundstellen in wichtigen Feldern: boosten Vorschau der Fundstellen in Fließtexten 12

Apache Nutch Crawler und Indexer folgt Links durchsucht HTML Seiten automatisch extrahiert die relevanten Informationen speist Ergebnisse in Lucene ein 13

Apache Solr Such-Server Komplettlösung Crawling, Indexing, Caching, Updating Administrations-Interface Optimierungen für High-Load Plug-in Architektur eigene Dokumente per XML einspeisen 14

Community & Support Lucene ist Quasi-Standard bei Such-APIs sehr aktives Projekt derzeit kein kommerzieller Service Support auf den öffentlichen Mailing-Listen Einfluß auf Projekt durch aktive Mitarbeit 15

Lucene Limits kein verteilter, replizierter Index keine Meinten Sie? Funktion keine Algorithmen zur schnellen Analyse großer Datenmengen 16

verwandte Apache Produkte Apache Hadoop Apache Hadoop Apache Mahout Apache Pig verteiltes Filesystem Map/Reduce Maschinenlernen Analyse großer Datenmengen 17

Apache Hadoop verteiltes, redundantes Filesystem HDFS verteilt über Rechner, Racks, Datacenter beliebig viele Live-Kopien, kein Offline- Backup nötig große Datenmengen, effizient laden verteilte Datenbank HBase Map/Reduce: Distributed Computing 18

Apache Mahout maschine learning neues Projekt implementiert herausragende ML- Algorithmen auf Basis von Map/Reduce experimentell = noch keine Integration in Lucene 19

ML-Algorithmen Meinten Sie? Autocompletion anhand der vielen Suchanfragen anhand der beliebtesten Suchanfragen Naive Bayes Spam-Detection 20

Vielen Dank! http://lucene.apache.org http://hadoop.apache.org http://incubator.apache.org/pig http://apache.org http://lucene.apache.org/mahout Fragen und Antworten 21