Suche mit Apache Solr. Nader Cserny, compuccino

Größe: px
Ab Seite anzeigen:

Download "Suche mit Apache Solr. Nader Cserny, compuccino"

Transkript

1 Suche mit Apache Solr Nader Cserny, compuccino

2 Agenda Vorstellung Einführung Funktionen Beispiele Praxis Fragen

3 Vorstellung

4 Vorstellung Entwicklung, Design, Konzeption, Beratung Hamburg.de, BILD, WELT, Moneywise, Berliner Morgenpost, Merian, FAZ, WWF, Hedgemedia, Schwäbische Post, 24h Berlin, Mercedes, Berliner Bank, Pernod Ricard, Milchverband, easyjet, XAVER.de, OTTO Nader Cserny Klas Roggenkamp 15! 2007! compuccino wurde 2007 von Klas Roggenkamp & Nader Cserny gegründet Organisch auf 15 Mitarbeiter gewachsen Spezialisierung auf Entwicklung und Design von komplexen Inhalten

5 Einführung

6 Einführung Was ist Solr? Enterprise Suchmaschine Ursprung bei CNET Networks Inc. seit 2004 in Entwicklung, aktive Community Open Source > kostenlos Multi-Plattform dank Java Apache Lizenz Cnet: Medien-Unternehmen aus den USA Multi-Plattform: Windows, Mac, Linux Apache Lizenz: frei verwenden, Änderungen müssen nicht veröffentlicht werden

7 Funktionen

8 Faceted: Kategorisierung nach Autor, Kategorie, Datum, Inhaltstyp, etc. Ranking: relevante Faktoren flexibel konfigurierbar Stammworterkennung: Haus findet Häuser, Porter-/Snowball-Stemmer für versch. Sprachen Meinten Sie: Korrektur von schwäbich zu schwäbisch Funktionen Was kann Solr? (1) Volltext-Suche Ranking und Relevanz Faceted Search => vielfältige Kategorisierung Stammworterkennung / Rechtstrunkierung Filterung mit regulären Ausdrücken, phonetische Filter Meinten Sie...? => Rechtschreibvorschläge

9 Funktionen Was kann Solr? (2) Unterstützung von Synonymen, Stop-Wortlisten Auto-Vervollständigung Hervorheben des Suchbegriffs in Ergebnissen Verfeinerung des Suchergebnisses durch Filter, Sortierung Vorschläge für ähnliche Treffer Indizierung von Inhalten in Dokumenten (Word, PDF,... mit Tika) Synonyme: Fahrzeug = Auto, Computer = PC Hervorheben mit CSS-Attributen Verfeinerung durch Auswahl von Parametern

10 Funktionen Was kann Solr? (3) Schnell, schneller, am schnellsten bei vielen Zugriffen (Caching) Skalierbar durch verteilte Indizes auf mehreren Rechnern Mehr Performance, ausfallsicher Flexibel erweiterbar durch Plugins Schnittstellen (RESTful API) zur Eingabe / Ausgabe von Daten Administrationsoberfläche Flexibel,...: Suchfunktionalitäten mit Plugins erweiterbar Caching: je mehr Suchanfragen umso schneller => Zwischenspeicher

11 Funktionen Was kann Solr? (4) Monitoring, Logging von Suchanfragen Konfiguration über XML-Dateien Multiple Daten-Schemas numerisch, Datum, dynamisch, eindeutiger Schlüssel (UUID) Daten-Import Handler CSV, URL, Dateien,... Daten-Import Handler: CSV, URLs, Files

12 Beispiele

13 Beispiele White House Sortierung Suchergebnis Filter Faceted Search => Filterungsoptionen Sortierung nach Relevanz, Titel,..., Datum auf-/absteigend

14 Beispiele CNET Networks Inc. Verwandte Suchbegriffe Suchergebnis Kategorien: Product Reviews, Downloads, News & Photos, Videos Darstellung des Suchergebnisses frei wählbar Narrow your results

15 Beispiele MTV Auto-Vervollständigung Auto-Vervollständigung bei Eingabe des Suchbegriffs Michael findet Michael Jackson, Michael Jackson Music Videos auf Basis der häufigsten Suchbegriff-Nennung

16 Beispiele Netflix Auto-Vervollständigung Suche in Videos per Auto-Vervollständigung

17 Beispiele Mattel Zufalls-Produkt aus Ergebnis Filter Surprise Me wählt zufälliges Suchergebnis aus und leitet direkt auf die Produktseite

18 Beispiele Disney Filter Toy Story findet den aktuellsten Film Toy Story 3

19 Beispiele CNN Suchergebnis Filter

20 Beispiele la Repubblica Erweiterte Suche Anderer Inhaltstyp Erweiterte Suche: Datum von/bis, Autor, etc. Foto: Direkte Anzeige von anderen Inhaltstypen

21 Praxis

22 DB Import: Felder definiert, Inhalte & Dokumente geparsed, etc. Initialer Import hat ca. 10 Stunden gedauert Bereits mit der Standardinstallation erzielt man bessere Suchergebnisse als mit MySQL Full- Text Search Praxis Prototyp Langsamer, alter Rechner im Büro (Kosten: EUR 200,00) AMD, 512 MB RAM => trotzdem schnell Webserver, CMS & Solr installiert Datenbank-Inhalte eingespielt kategorisierte Artikel, PDF-Dokumente (Stand: ) Standardinstallation bringt bessere Ergebnisse als MySQL Full-Text Search

23 Praxis Suchanfragen Suche: schwäbich => Meinen Sie: schwäbisch Auto-Vervollständigung: Polizei => Polizeibericht, Polizeirevier, Polizeidirektion,... Suche: einkaufen aalen mitternacht (785 Treffer, vgl. SP => 12 Treffer und kein direktes Ergebnis) Suche: Schatzsuche Umweltmuseum => Meinen Sie: Schatzsuche Urweltmuseum (vgl. SP => Unterschriften) Suche: Gmünder Pferdetage => Findet etwas im PDF (vgl. SP: kein direktes Ergebnis) Suche: Aalen Wandern => Findet im Titel Wandern in Aalen

24 Fragen

25 Abschließend...

26 Abschließend... Mehr über uns: Fragen: T: