design kommunikation development

Ähnliche Dokumente
Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

Verwalten Sie Ihre Homepage von überall zu jeder Zeit! Angebote und Informationen auf

XINDICE. The Apache XML Project Name: J acqueline Langhorst blackyuriko@hotmail.de

Übung - Datensicherung und Wiederherstellung in Windows Vista

» Export von Stud.IP-Daten auf eigene Web-Seiten» Workshop Donnerstag,

e-books aus der EBL-Datenbank

Suchmaschinenoptimierung. für Typo 3

12. Dokumente Speichern und Drucken

Suchen und Finden mit Lucene und Solr. Florian Hopf

Kleines Handbuch zur Fotogalerie der Pixel AG

Benutzergruppen anlegen... 2 Freigabe erstellen... 3 Sicherheitseinstellungen... 4

DIE SUCHFUNKTION VON WINDOWS 7

IAWWeb PDFManager. - Kurzanleitung -

2. Word-Dokumente verwalten

Übung - Datensicherung und Wiederherstellung in Windows 7

Quick-Guide Web Shop. Kurzanleitung für die Benutzer des Bernd Kraft Webshops

Erstellen einer digitalen Signatur für Adobe-Formulare

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

Downloadfehler in DEHSt-VPSMail. Workaround zum Umgang mit einem Downloadfehler

Anleitung zur Erstellung und Bearbeitung von Seiten in Typo3. Typo3. Anleitung. Wenpas Informatik

Übung - Datenmigration in Windows 7

Werkschau Web-Präsentationen

Kurzreferenz Website Baker Version 2.8.1

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

Kurzanleitung zur Bereitstellung von Sachverhalten und Lösungen zum Universitätsrepetitorium auf dem Server unirep.rewi.hu-berlin.

EvaSys-Export (Stand )

my.ohm Content Services Autorenansicht Rechte

Strategie & Kommunikation. Trainingsunterlagen TYPO3 Version 4.3: News Stand

Leichte-Sprache-Bilder

Kontaktieren Sie uns! Firmensitz Catidesign. Friedrich-Ebert-Str Neckargemünd. Niederlassung Frankfurt

K-TAG Master. Dateientschlüsselung/ Dateiverschlüsselung für Slaves. Version 1.0

Übung - Datenmigration in Windows XP

Benutzerhandbuch - Elterliche Kontrolle

Angaben zu einem Kontakt...1 So können Sie einen Kontakt erfassen...4 Was Sie mit einem Kontakt tun können...7

SIGNATUR IN MOZILLA THUNDERBIRD

Hinweise zum elektronischen Meldeformular

Whitepaper. Produkt: address manager David XL Tobit InfoCenter AddIn für den address manager Zuordnung

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

EMC SourceOne TM für Microsoft SharePoint 7.1 Archivsuche Kurzreferenz

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Orientierungstest für angehende Industriemeister. Vorbereitungskurs Mathematik

PC-Umzug: So ziehen Sie Ihre Daten von Windows XP nach Windows 8 um

Programm öffnen. Erster Start. Sie starten ibar, indem Sie auf das Programmicon tippen.

Anleitung Typo3-Extension - Raumbuchungssystem

etax.schwyz: Suche nach Steuerfalldateien

Benutzerhandbuch Archivierung

SHAREPOINT Unterschiede zwischen SharePoint 2010 & 2013

Verschlüsseln eines USB Sticks mit TrueCrypt Eine ausführliche Anleitung. Hochschule der Medien Stuttgart Christof Maier I Frank Schmelzle

Pixtacy-Anbindung an CleverReach.de

Zeichen bei Zahlen entschlüsseln

Wichtige Information zur Verwendung von CS-TING Version 9 für Microsoft Word 2000 (und höher)

Tutorial -

SharePoint Demonstration

Das Starten von Adami Vista CRM

egovernment für das Open Source CMS Contao

Seriendruck mit der Codex-Software

Ersatzteile der Extraklasse Magento-Module der Shopwerft

I N S T A L L A T I O N S A N L E I T U N G

Google - Wie komme ich nach oben?

HTML5. Wie funktioniert HTML5? Tags: Attribute:

Optionen. Optionen Allgemein

Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen.

Blumen-bienen-Bären Academy. Kurzanleitung für Google Keyword Planer + Google Trends

Scandio SEBOL Search

Installations Guide für YAJSW und DTLDAP

Handbuch ECDL 2003 Basic Modul 3: Textverarbeitung Dokument bearbeiten und speichern

Handbuch. Visitenkarten

Suchmaschinenoptimierung in Typo 3

Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor

Typo3 Tutorial Bildarchiv

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

S TAND N OVEMBE R 2012 HANDBUCH DUDLE.ELK-WUE.DE T E R M I N A B S P R A C H E N I N D E R L A N D E S K I R C H E

LabTech RMM. Integration von Teamviewer. Vertraulich nur für den internen Gebrauch

Beschreibung Regeln z.b. Abwesenheitsmeldung und Weiterleitung

Anwendungsbeispiele Buchhaltung

Outlook Erstellen einer aus einer HTML - Vorlage INHALT

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Inhaltverzeichnis 1 Einführung Zugang zu den Unifr Servern Zugang zu den Druckern Nützliche Links... 6

Lehrer: Einschreibemethoden

Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009)

Meldung der Waffennummern (Waffenkennzeichen) nach der Feuerwaffenverordnung der EU

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

ACDSee Pro 3-Tutorials: Versenden von Bilder an eine FTP-Site

Lokale Installation von DotNetNuke 4 ohne IIS

Einrichten des Elektronischen Postfachs

Online Newsletter III

Hyperlink-Erstellung in InDesign für

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

Universität Zürich Informatikdienste. SpamAssassin. Spam Assassin Go Koordinatorenmeeting 27. April

DELFI. Benutzeranleitung Dateiversand für unsere Kunden. Grontmij GmbH. Postfach Bremen. Friedrich-Mißler-Straße Bremen

YouTube: Video-Untertitel übersetzen

Impulse Inklusion Selbst-bestimmtes Wohnen und Nachbarschaft

Database Change Management für Continuous Delivery. Diana Lander und Andreas Falk NovaTec Consulting GmbH

Mit dem sogenannten Seriendruck können Etiketten und Briefe mit einer Adressdatei (z. B. Excel) verknüpft werden.

T Y P O 3 M I T M A G E N T O E C O M M E R C E M I T E N T E R P R I S E C O N T E N T M A N A G E M E N T

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

1 Schritt: Auf der Seite einloggen und. ODER Zertifikat für VPN, wenn sie nur VPN nutzen möchten

Transkript:

http://www.dkd.de

dkd design kommunikation development

Apache Solr - A deeper look Stefan Sprenger, Developer dkd Olivier Dobberkau, Geschäftsführer dkd

Agenda Einführung Boosting Empfehlungen Ausblick

Einführung Was ist Apache Solr?

Apache Lucene hoch-performante Such-Engine Open-Source 100% Java Ressourcen-sparend Ports für zahlreiche Programmiersprachen

Apache Solr basiert im Kern auf Apache Lucene REST-ähnliche HTTP-Schnittstelle verarbeitet XML, JSON, CSV und Binärdaten erweitert Lucene um diverse Features, z.b. Facetten Suchwort-Highlighting HTML-Admin-Interface Caching Stable-Versionen: 3.6.2 und 4.2

Apache Solr wird verwendet bei...

Workflow einer Suchanwendung Indexieren Abfragen Ergebnisse Analyse

Schemafreiheit Dokumente besitzen kein festes Schema hohe Flexibilität beliebige Attribute Beispiel: Visitenkarten

Datenmodell Solr-Index Dokument A title author content Dokument B title content Dokument C title author content created

Solr-Index Inverted Index Liste an Wörtern ( Terms ) jeder Term zeigt auf Dokumente, die ihn enthalten

Lucene Query Language (1) erlaubt das Durchsuchen von Dokumenten Keyword-Matching title: TYPO3 title: TYPO3 AND content: Solr title: TYPO3 OR content: Solr Wildcard-Matching title: TYPO* *: TYPO3

Lucene Query Language (2) Range-Queries created:[20120101 TO 20140131]

Facettierte Suche

Content-Elevation Bezahlte Ergebnisse bestimmte Dokumente erscheinen immer am Anfang der Suchergebnisse

Geo-Suche Suche im Umkreis einer Geo-Position z.b. Shops im Umkreis von 10km Funktionen zur Distanzberechnung

Dateiindexierung mit Apache Tika Tika ist in Solr integriert extrahiert Metadaten aus Dateien erkennt 1200+ Dateitypen liest davon 600+ z.b. Office-Formate, Audio, Bilder, Videos, E-Mails,...

Apache Nutch kann zur Indexierung von externen Webseiten verwendet werden EXT:solr bietet eine API an, die ein selbst entwickeltes Nutch-Plugin verwendet Integration in TYPO3

Weitere Features Rechtschreibüberprüfung Synonyme und Stoppwörter Sortierung Gruppierte Ausgabe von Ergebnissen Hervorhebung von Suchwörtern...

Literatur

Boosting

Ziel Relevanz der Suchergebnisse beeinflussen beschreibt die Qualität/Güte der Suchergebnisse Ergebnisse verbessern Standard-Sortierung: Relevanz Ergebnisse mit hoher Relevanz stehen am Anfang

Boosting von Attributen Relevanz einzelner Attribute beeinflussen (title:typo3)^5.0 (content:typo3)^2.0

Case-Insensitive Matches Wenn nach solr gesucht wird, sollen auch Dokumente, die Solr enthalten, gefunden werden Verwenden eines lowercase-filters

Boosting von exakten Matches exakte Matches sollen eine höhere Relevanz in den Suchergebnissen erhalten z.b. Case-sensitive Schreibweise eigenes Feld mittels copyfield erstellen, das das Wort in exakter Schreibweise enthält ohne lowercase-filter dieses Feld erhält eine höhere Priorität

Boosting von Dokumenten Bezahlte Ergebnisse Konfiguration der Dokumente per XML <elevate> <query text= Typo3 > <doc id= 1 /> </query> <query text= Solr > <doc id= 2 /> <doc id= 3 /> <doc id= 5 exclude= true /> </query> </elevate>

Empfehlungen

Einsatzgebiet Apache Solr zum Erstellen von Empfehlungen verwenden Navigation durch Suchergebnisse und Webseiteninhalte z.b. Shops

Attributsbasierte Empfehlungen (1) Verwenden von Eigenschaften, die man vom Benutzer kennt, um einen Solr-Index abzufragen Beispiel: man weiß, dass ein Benutzer sich für den Studiengang Informatik interessiert dann können Dokumente aus dem Fachbereich Informatik vorgeschlagen werden fachbereich:informatik http://de.slideshare.net/treygrainger/building-a-real-time-solrpowered-recommendation-engine

Attributsbasierte Empfehlungen (2) Spezielle Felder erstellen, auf deren Basis Empfehlungen ausgesprochen werden Bessere Steuerung von Empfehlungen

More Like This eigenes Solr-Modul arbeitet basierend auf Begriffen ( Terms ) in Attributen Solr berechnet die textliche Ähnlichkeit der Dokumente und schlägt die Top-Treffer vor

Ausblick

Apache Stanbol Content Enhancement annotiert Texte mit Metadaten z.b. Personen, Orte nutzt Apache Solr zur Speicherung unterstützt Mehrsprachigkeit

Hosted Solr

Links lucene.apache.org/solr/ www.typo3-solr.com forge.typo3.org/projects/extension-solr/ Wiki Issues

Fragen?

dkd design kommunikation development sagt danke.