Volltextsuche mit Lucene & Lupy

Transkript

1 Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik HS: Information Retrieval PD Dr. Karin Haenelt WS 26/7 Enikö Gross Alina Tokarczyk

2 Inhalt Lucene Lupy Was ist Lucene? Aufbau des Pakets / Übersicht der Funktionen Lucene-Ablauf Was ist Lupy? Aufbau von Lupy-API Anwendung von Lupy Evaluierung Ziel des Experiments Textkorpus und Beispieltext Queries Suchergebnisse Sonderfälle Zusammenfassung Softwaresysteme, die Lucene benutzen Literatur

3 Was ist Lucene? Lucene ist eine open-source Quellcode-Bibliothek für Textsuchmaschinen programmiert in Java leistungsstark (schnell, effizient) enthält umfangreiche Funktionen zur Implementierung einer großen Textsuchmaschine geeignet (API - engl. application programming interface, dt. Schnittstelle zur Anwendungsprogrammierung) Realisierung der Volltextsuche erfolgt in zwei Hauptschritten: der Indexierung und der Suche Die aktuelle Version: Lucene 2..

4 Lucene-Entwicklung Im Rahmen der Apache Software Foundation (ASF) wurde das Jakarta Projekt (Implementierungen Java- Anwendungen) angefangen Lucene ist ein Teil des Jakarta Projekts und wird seit 1997 entwickelt Der Begründer von Lucene ist Doug Cutting

5 Lucene Packages Lucene enthält die folgenden packages: analysis document index queryparser search store util

6 Klassen in analysis Analyzer.class CharStream.class CharTokenizer.class FastcharStream.class ISOLatin1AccentFilter.class KeywordAnalyzer.class KeywordTokeniyer.class LengthFilter.class LetterTokenizer.class LowerCaseFilter.class LowerCaseTokenizer.class ParseException.class PerFieldAnalyzerWrapper.class PorterStemFilter.class PorterStemmer.class SimpleAnalzyer.class StandardAnalyzer.class StandardFilter.class StandardTokenizer.class StandardTokenizerConstatnts.class StandardTokenizerTokenManager.cl ass StopAnalyzer.class StopFilter.class Token.class TokenFilter.class Tokenizer.class TokenMgrError.class TokenStream.class WhitespacAnalyzer.class WhitespaceTokenizer.class WordlistLoader.class unterstrichene Klassen sind in Lupy in Python portiert

7 Klassen in index CompoundFileReader.class CompoundFileWriters.class DocumentWriter.class FieldInfo.class FieldInfos.class FiledsReader.class FieldsWriter.class FilterIndexReader.class IndexFileNameFilter.class IndexFileNames.class IndexModifier.class IndexReader.class IndexWriter.class MultipleTermPosition.class MultiReader.class MultiTermDocs.class MultiTermEnum.class MultiTermPositions.class ParallelReader.class Posting.class SegmentInfo.class SegmentInfos.class SegmentMergeInfo.class SegmentMergeQueue.class SegmentMerger.class SegmentReader.class SegmentTermDocs.class SegmentTermEnum.class SegmentTermPositions.class SegmentTermPositionVector.class SegmentTermVector.class Term.class TermBuffer.class TermDocs.class TermEnum.class TermFreqVector.class TermInfo.class TermInfosReader.class TermInfosWriter.class TermPostions.class TermPostitionVector.class TermVectorOffsetInfo.class TermVectorsReader.class TermVectorWriter.class

8 Einige Klassen in package search WildTermEnum.class BooleanClause.class BooleanQuery.class BooleanScorer.class ConjunctionScorer.class DefaultSimilarity.class DisjunctionMaxQuery.class DicjunctionMaxScorer.class ExactPhraseScorer.class Explanation.class FieldCache.class FieldDoc.class FieldDocSortedHitQueue.class FieldSortedHitQueue.class Filter.class FilteredQuery.class FilteredTermEnum.class FuzzyQuery.class FuzzyTermEnum.class HitDoc.class HitQueue.class Hits.class IndexSearcher.class MatchAllDocsQuery.class MutliPhraseQuery.class MultiSearcher.class MultiTermQuery.class ParallelMultiSearcher.class PhrasePositions.class PhraseQuery.class PhraseScorer.class PrefixQuery.class Query.class QueryFilter.class QueryTermVector.class RangeQuery.class ScoreDoc.class Scorer.class Searcher.class Similarity.class Sort.class SortComarator.class SortField.class TermQuery.class TermScorer.class TopDoc.class TopFieldDocs.class Weight.class WildcardQuery.class

9 Grafische Darstellung von Klassen (Scoring)

10 Lucene weitere Projekte Projekte in der Entwicklungsphase: Snowball Stemmers for Lucene (Wortstammreduktion) Lucene WordNet (Synonymsuche; verwendet WordNet- Prologdateien)

11 Gesamtablauf von Lucene Schumann, Lucene. Java (26)

12 Gesamtablauf einer Lucene- Anwendung Indexerstellung ein Suchraum (Textkorpus) wird definiert und aufbereitet Normalisierung die Datenmenge wird mit Hilfe von Analyze reduziert Indexierung wird durchgeführt INDEX MIT DOKUMENEN Eine Anfrage wird gestellt und mittels QueryParser bearbeitet QUERY Index wird gemäß Query durchgesucht Ergebnisse (Hits) können nach Relevanz sortiert werden

13 Lucene - Indexerstellung Das Textkorpus wird in Token zerlegt und mit Hilfe eines Analyzers normalisiert: StandardAnalyzer : ein hoch entwickelter Mehrzweckanalyzer WhitespaceAnalyzer : ein einfacher Analyzer, der die Tokens mittels Lehrstellen aufteilt StopAnalyzer : entfernt die englischen Stoppwörter SnowballAnalyzer : reduziert die Wörter auf ihren Wortstamm (z.b. gesuchtes "rain" gibt auch "raining", "rained", etc... aus) GermanAnalyzer, RussianAnalyzer, FrenchAnalyzer, etc. ein für die jeweiligen Sprachen geeigneter Analyzer Die Dokument-Objekte (documents) werden durch Hinzufügen der Felder (fields) erstellt (Klasse Document)

14 Lucene - Indexstruktur Ein Index besteht aus einer Sequenz von Lucene-Dokumenten (documents) Jedes Dateiformat (HTML, XML, Word, PDF etc.) kann in ein Dokument umgewandelt werden Jedes Dokument besteht aus mindestens einem oder mehreren Feldern (fields), die mit Hilfe von FileDocument hinzugefügt wurden. Ein Feld besitzt einen Namen und einen Wert

15 Lucene Indexstruktur (Fields) In Lucene gibt es vier Feld-Typen (Werte): UnIndexed Feld wird im Index gespeichert (stored) aber nicht in der Suche verwendet Keyword Feld wird gespeichert (stored) und indexiert (indexed) (Keyword ist ein String oder eine Datei) Text Feld wird analysiert (tokenized), indexiert und im Index gespeichert (stored) UnStored Feld-Wert wird analysiert (tokenized) und indexiert, aber nicht im Index gespeichert Eigenschaften von Field: stored Text wird im Index wörtlich (literally) gespeichert indexed invertierte Felder tokenized Text im Feld wird tokenisiert, um die entstandenen Terme zu indexieren

16 Lucene - Indexierung IndexWriter erstellt einen Index und fügt die neuen Dokumente in den Index mit Hilfe der Funktion adddocument() hinzu Mittels IndexReader kann man auf die Daten im Index zugreifen

17 Lucene Beispiel der Indexierung Analyzer analyzer = new StandardAnalyzer(); // Store the index in memory: Directory directory = new RAMDirectory(); // To store an index on disk, use this instead (note that the // parameter true will overwrite the index in that directory // if one exists): //Directory directory = FSDirectory.getDirectory("/tmp/testindex", true); IndexWriter iwriter = new IndexWriter(directory, analyzer, true); iwriter.setmaxfieldlength(25); Document doc = new Document(); String text = "This is the text to be indexed."; doc.add(new Field("fieldname", text, Field.Store.YES, Field.Index.TOKENIZED)); iwriter.adddocument(doc); iwriter.close();

18 Lucene - Suche Searcher wird mit zwei Parametern aufgerufen: Directory, wo der Index liegt Suchanfrage QueryParser erstellt ein Query-Objekt aus einem String (Suchanfrage) Die Volltextsuche wird mittels IndexSearcher durchgeführt. Output: eine Rangliste von gefundenen Dokumenten wird in Hits gespeichert; die Suchergebnisse werden für den Benutzer ausgegeben

19 Lucene - Suche Lucene bietet Datenstrukturen für verschiedene Formen der Query: TermQuery für einzelne Begriffe (TermQuery verbindet die Dokumente, die den gesuchten Begriff beinhalten) PhraseQuery für Phrasen (PhraseQuery verbindet die Dokumente, die eine bestimmte Sequenz der Suchbegriffe in derselben Reihenfolge beinhalten) BooleanQuery für Ausdrücke, in denen die Suchbegriffe mit Booleschen Operatoren (and, or, not) verbunden worden sind

20 Lucene - Suche WildCardQuery Dokumente, die den Wildcards entsprechen, werden ausgesucht. Wildcard besteht aus einem oder mehreren Zeichen (Platzhalter), die durch andere Zeichen realisiert sein können. Bei Lucene gibt es zwei Arten von Wildcards: Fragezeichen (?) Platzhalter für ein beliebiges Zeichen z.b. te?t für text oder test Stern (*) Plazthalter für beleibig viele Zeichen z.b. test* für test, tests oder tester FuzzyQuery verbindet die Dokumente, die einen ähnlichen Term zu dem gesuchten beinhalten z.b. Query: roam~ > foam oder roams PrefixQuery RangeQuery

21 Lucene Beispiel der Suche // Now search the index: IndexSearcher isearcher = new IndexSearcher(directory) // Parse a simple query that searches for "text": QueryParser parser = new QueryParser("fieldname", analyzer); Query query = parser.parse("text"); Hits hits = isearcher.search(query); assertequals(1, hits.length()); // Iterate through the results: for (int i = ; i < hits.length(); i++) { Document hitdoc = hits.doc(i); assertequals("this is the text to be indexed.", hitdoc.get( "fieldname")); } isearcher.close(); directory.close();

22 Lucene Vorteile/Nachteile Vorteile: Indexierung: schnell wenig Speicherplatz benötigt (1MB Heap) Index ist kleiner um 7-8% als der Original-Text Suche: ranked searching Verschiedene Query-Typen vorhanden Sortierung möglich Effektive Modell-Kombination möglich (Vektor-Model + Boolean-Model) sehr flexibel (große Freiheit bei Gestaltung der Suche) sehr gut dokumentiert in vielen anderen Systeme verwendet kostenlos Nachteile: hoher Implementierungsaufwand

23 Lucene-Beispiel: Klasse IndexWriter.java /** * Adds a document to this index, using the provided analyzer instead of the * value of {@link #getanalyzer()}. If the document contains more than * {@link #setmaxfieldlength(int)} terms for a given field, the remainder are * discarded. */ public void adddocument(document doc, Analyzer analyzer) throws IOException { DocumentWriter dw = new DocumentWriter(ramDirectory, analyzer, this); dw.setinfostream(infostream); String segmentname = newsegmentname(); dw.adddocument(segmentname, doc); synchronized (this) { segmentinfos.addelement(new SegmentInfo(segmentName, 1, ramdirectory)); maybemergesegments(); } }

24 Lupy-Beispiel: Klasse IndexWriter (in Python) def adddocument(self, doc): dw = documentwriter.documentwriter(self.ramdirectory, self.analyzer) segmentname = self.newsegmentname() dw.adddocument(segmentname, doc) self.segmentinfos.append(segment.segmentinfo(segmentname, 1, self.ramdirectory)) self.maybemergesegments()

25 Lucene vs. Lupy Lucene ist eine open-source Quellcode-Bibliothek für Textsuchmaschinen programmiert in Java leistungsstark umfangreiche Funktionen Indexierung und Suche zum Aufbau großer Suchmaschinen geeignet Lupy ist eine Portierung von Jakarta Lucene 1.2 (alte Version!) in Python. Der Großteil von Lucene 1.2 wurde in Lupy verwendet. Das Projekt wurde bis Mai 24 von Amir Bakhtiar entwickelt Projektseite:

26 Lupy Lupy - eine open-source Quellcode-Bibliothek für Textsuchmaschinen programmiert in Python mit Hilfe von Lupy kann man eine Volltextsuchmaschine implementieren, die einen Text indexiert und den gebildeten Index durchsucht Text-Indexer kann zu der Indexierung der Textdokumente wie Web-Seiten, Quellcode, s benutzt werden Text-Suche - der Index wird nach den angegebenen Anfragen durchsucht

27 Aufbau der Lupy-API Lupy-API: index - Paket search - Paket document.py (Document, Field) store.py (FSdirectory, RAMDirectory, Stream, FileStream, RAMStream) util.py (BitVector)

28 Aufbau der Lupy-API (Index) index documentwriter.py (DocumentWriter, Posting); Funktion: standardtokenizer field.py (FieldInfo, FieldInfos, FieldsWriter, FieldsReader) indexwriter.py (IndexWriter) segment.py (SegmentTermEnum, SegmentInfo, SegmentInfos) segmentmerger.py (IndexReader, SegmentTermDocs, SegmentTermPositions, SegmentMergeInfo, SegmentMerger, SegmentReader, Norm, SegmentsReader, SegmentsTermDocs, SegmentsTermPosition, TermInfosReader) term.py (Term, TermInfo, TermInfosWriter) terminfo.py (TermInfo)

29 Aufbau der Lupy-API (Suche) search boolean.py (BooleanQuery, BooleanClause, BooleanScorer, SubScorer) hits.py (Hits) indexsearcher.py (IndexSearcher, ScoreDoc, TopDocs) phrase.py (PhraseQuery, PhraseScorer, ExactPhraseScorer, PhrasePositions) similarity.py term.py (TermQuery, TermScorer)

30 Unterschiede zu Lucene In Lupy (im Vergleich zu Lucene): gibt es keine Möglichkeit der Text- oder Anfragen-Analyse (in Lucene: Analyzer, TokenStream, Token, TokenFilter, Tokenizer, StopAnalyzer, StandardAnalyzer) gibt es keinen Query-Parser fehlen die Query-Datenstrukturen (FuzzyQuery, WildCardQuery, PrefixQuery, RangeQuery) wurden viele Klassen in Rahmen der Indexierung und Suche nicht implementiert

31 Unser Experiment Implementierung einer Suchmaschine Ziel des Experiments Textkorpus Beispielanfrage Evaluierung

32 Anwendung von Lupy Lupy Herunterladen Installation Implementierung einer einfachen Suchmaschine und Kodierung der Queries Index erzeugen Index durchsuchen

33 Implementierung (Liste der verwendeten Klassen) Indexerstellung Import from lupy.index.indexwriter import IndexWriter from lupy import document Indexer (Klasse) IndexWriter adddoc(filename) Document (aus document.py) Keyword (aus document.py) Text (aus document.py)

34 Implementierung (Liste der verwendeten Klassen) Suche Import from lupy.index.term import Term from lupy.search.indexsearcher import IndexSearcher from lupy.search.term import TermQuery from lupy.search.phrase import PhraseQuery from lupy.search.boolean import BooleanQuery termsearch(querystring) Term TermQuery phrasesearch(querystring, field) PhraseQuery Term boolsearch(ands=[], ors=[], nots=[]) BooleanQuery Term TermQuery IndexSearcher

35 Ziel des Experiments Der Test der Funktionalität des Programms Werden alle Äquivalente der Query im Index gefunden? Wenn nicht: warum wurden einige Äquivalente nicht gefunden? Werden alle relevanten Dokumente ausgegeben? Der Test der Anwendung: Mit Hilfe der Lupy-Bibliothek kann man eine Suchmaschine implementieren, der nur das Boolsche Modell zugrunde liegt. Wie gut eignet sich dieses Modell für die Informationsbeschaffung? Welche Informationen werden beschaffen? Wie kann die Programmeffizienz verbessert werden? Wird eine Suchmaschine, die sich auf das Vektormodel stützt, bessere Ergebnisse liefern?

36 Textkorpus Textkorpus: 11 kurze Beschreibungen der Praktikumsstellen bei IBM, SAP und Siemens in deutsch und englisch Jeder Text besteht aus: einer Titelzeile (Name und Sitz des Unternehmens und Name der Praktikumsstelle) einem Inhalt mit den Zielen, Anforderungen und Aufgaben des Bewerbers Details: Dauer der Praktikum, Kennziffer der Anzeige

37 Beispieltext Text IBM Böblingen - Automated analysis of customer related problem records Bereich: IBM Entwicklung GmbH, EL Einsatzort: Böblingen Dauer: Zwischen 3 und 5 Monate Beginn des Praktikums zwischen dem und dem möglich (Praktikum (Pflicht- / freiwillig) Vollzeit) Aufgabengebiet: The goal of this internship is to develop a program in perl to automatically analyse records about customer problems. Especially statictical data shall be extracted from text based records in varius formats (e.g. HTML). Anforderungen: English language[mandatory], Linux/UNIX[useful], Programming in Perl[useful] Unser Angebot: The Linux system Z development team at the Boeblingen lab is the system house and maintainer for Linux on the IBM System Z mainframe. We offer insight into a dynamic project from systems architecture to development and system verification even up to technical customer relationship management.

38 Query Queries: Kenntnisse, Fähigkeiten oder Interesse des Bewerbers z.b. Der Bewerber kennt Java aber nicht Perl man konstruiert eine Boolean-Anfrage: +Java und Perl und sucht den Index nach den Dokumenten durch, in denen Java aber nicht Perl vorkommt Kodierung: ([and - erforderlich], [or - optional], [and not - verboten]) Beispiel: +c perl - (['c'], [], ['perl']) Man darf keinen Ausdruck als erforderlich und gleichzeitig verboten spezifizieren

39 Query gesuchter Begriff: 'c++' gesuchte Phrasen: c++, human maschine dialog gesuchte Ausdrücke: +'c' und -'perl +'c' (oder'java' oder'perl') +'develop' +'program' +'perl' +"information retrieval" (oder'text', oder'mining ) +'information' +'retrieval' (oder'text', oder'mining ) (oder'objektorientierten' oder'programmierung' oder'programmierungsprache )

40 Suchergebnisse Query: +c-perl Found in document aesop\1.txt (IBM Böblingen - Softwarepraktikum im Bereich Systemautomatisierung) Found in document aesop\8.txt (SAP Walldorf - Praktikant (w/m) für interaktive Web- Programmierung) Found in document aesop\9.txt (SAP Walldorf - Praktikant / Werkstudent (w/m) mit Schwerpunkt C++ Programmierung) Query: +c java perl Found in document aesop\9.txt (SAP Walldorf - Praktikant / Werkstudent (w/m) mit Schwerpunkt C++ Programmierung) Found in document aesop\1.txt (IBM Böblingen - Softwarepraktikum im Bereich Systemautomatisierung) Found in document aesop\8.txt (SAP Walldorf - Praktikant (w/m) für interaktive Web- Programmierung) Found in document aesop\3.txt (IBM Böblingen - Speech Recognition / Human Machine Dialog / Large Vocabulary Transcription) Found in document aesop\2.txt (IBM Böblingen - Information Retrieval und Information Mining Performance)

41 Suchergebnisse Query: +develop+program+perl Found in document aesop\.txt (IBM Böblingen - Automated analysis of customer related problem records) Query: +information retrievaltextmining Nothing found! Query: +information+retrieval text mining Found in document aesop\2.txt (IBM Böblingen - Information Retrieval und Information Mining Performance) Query: objektorientierten programmierung programmierungsprache Found in document aesop\1.txt (SAP Walldorf - Praktikant (w/m) für den Bereich Java Server Technology ) Found in document aesop\9.txt (SAP Walldorf - Praktikant / Werkstudent (w/m) mit Schwerpunkt C++ Programmierung) Found in document aesop\8.txt (SAP Walldorf - Praktikant (w/m) für interaktive Web- Programmierung)

42 Suchergebnisse Query: software anwendungen softwareentwicklung Found in document aesop\8.txt (SAP Walldorf - Praktikant (w/m) für interaktive Web- Programmierung) Found in document aesop\2.txt (IBM Böblingen - Information Retrieval und Information Mining Performance) Found in document aesop\1.txt (IBM Böblingen - Softwarepraktikum im Bereich Systemautomatisierung) Found in document aesop\9.txt (SAP Walldorf - Praktikant / Werkstudent (w/m) mit Schwerpunkt C++ Programmierung) Query: c++ Nothing found! Query: \c++\ Nothing found! Query: \human machine dialog\ Found in document aesop\3.txt (IBM Böblingen - Speech Recognition / Human Machine Dialog / Large Vocabulary Transcription)

43 Evaluierung Darstellung der Ergebnisse Sonderfälle Test der Funktionalität Test der Anwendung

44 Ergebnisse Queries Relevante Dokumente Relevant ausgegeben Relevant nicht ausgegeben Irrelevant ausgegeben Irrelevant nicht ausgegeben +'c' und -'perl 1 (D. 8) 1 (D. 8) 2 (D. 1,9) 8 +'c' (oder'java' oder'perl') 3 (D.2,3,8) 3 (D. 2,3,8) 2 (D. 1,9) 6 +'develop' +'program' +'perl' 1 (D. ) 1 (D. ) 1 +"information retrieval" (oder'text', oder'mining ) 1 (D. 2) 1 (D. 2) 1 +'information' +'retrieval' (oder'text', oder'mining ) 1 (D. 2) 1 (D. 2) 1 (oder'objektorientierten' oder'programmierung' oder'programmierungsprache ) 3 (D.8,9,1) 3 (D.8,9,1) 8 + software, +anwendung, +softwareentwicklung 4 (D. 1,2,8,9) 4 (D. 1,2,8,9) 7 'c++' 5(D.1,2,3,8,9 ) 5(D.1,2,3,8,9) 6 c++ human maschine Volltextsuche dialog mit 5(D.1,2,3,8,9 ) 1 (D. 3) 5(D.1,2,3,8,9) 1 (d. 3) 6 1

45 Ergebnisse Query Precision Recall Fallout +'c' und -'perl 33,3% 1% 2% +'c' (oder'java' oder'perl') 2% 1% 25% +'develop' +'program' +'perl' 1% 1% +"information retrieval" (oder'text', oder'mining ) +'information' +'retrieval' (oder'text', oder'mining ) 1% 1% (oder'objektorientierten' oder'programmierung' oder'programmierungsprache ) 1% 1% + software, +anwendung, +softwareentwicklung 1% 1% 'c++' c++ human maschine dialog 1% 1% Durchschnitt 59,39% 72,72% 4,1%

46 Ergebnisse Genauigkeit des Suchprozesses (Precision): der durchschnittliche Wert der Präzision ist niedrig und liegt bei ca. 59%. Das bedeutet, dass unsere Suchmaschine ziemlich viele unpräzise Ergebnisse liefert. Außer den relevanten Dokumenten wurden auch die Dokumente ausgegeben, die der Anfrage nicht entsprechen. Vollständigkeit des Suchprozesses (Recall): unser Programm liefert entweder alle relevanten Dokumente (manchmal mit irrelevanten Dokumenten zusammen ), oder keine Dokumente, obwohl in denen der gesuchte Begriff vorkommt. Der durchschnittliche Recall-Wert (ca. 73%) ist höher als der Precision-Wert, aber noch nicht optimal. Die Implementierung der Suchmaschine muss noch verbessert werden, so dass sie in Zukunft an 1% nahe liegende Ergebnisse liefert.

47 Sonderfälle +'c' und -'perl und +'c' (oder'java' oder'perl') In beiden Fällen ist Recall optimal (1%), aber Precision sehr niedrig (33,3% in dem ersten Fall und 2% in dem zweiten). Grund: es wurden alle Dokumente ausgegeben, in denen nicht nur c aber auch c++ vorkommt. + ist ein Sonderzeichen (Boolscher Operator, siehe Ergänzung - Sonderzeichen), der bei der Indexierung ausgelassen wurde und in der Anfrage vorkommend bei der Suche + ignoriert wurde. +"information retrieval" (oder'text', oder'mining ) vs. +'information' +'retrieval' (oder'text', oder'mining ) Phrasenanfrage information retrieval wurde nicht gefunden, wenn man aber nach zwei Termen information und retrieval fragt, wurde ein relevantes Dokument ausgegeben. Die Implementierung der Suchmaschine muss noch verbessert werden. 'c++' und c++ c++ sowohl als Term als auch als Phrasequery wurde nicht gefunden. + ist ein Sonderzeichen (Boolscher Operator, siehe Ergänzung - Sonderzeichen), der nicht als Teil der Anfrage verwendet werden soll.

48 Ergänzung - Sonderzeichen Sonderzeichen in Lucene + - &&! ( ) { } [ ] ^ " ~ *? : \ gehören zu den Schlüsselwörtern in Lucene um dieser Sonderbedeutung zu entgehen, verwendet man den Backslash \ vor dem Zeichen z.b. um den Ausdruck (1+1):2 zu suchen, wird die Query \(1\+1\)\:2 eingeführt In dieser Weise könnte man dieses Problem auch mit Lupy lösen

49 Test der Funktionalität Nicht alle relevanten Dokumente wurden ausgegeben (Recall ca. 73%) und einige irrelevante Dokumente wurden geliefert (Precision ca. 59%) Nicht alle Äquivalente der Query wurden gefunden Die Implementierung unserer Suchmaschine muss ergänzt und verbessert werden.

50 Test der Anwendung Es wurde eine Menge der Dokumente ausgegeben, in denen der gesuchte Ausdruck vorkommt (Totale Übereinstimmung des Dokuments mit dem Term). Ähnliche Dokumente, die nicht vollkommen mit der Anfrage übereinstimmen, werden im Boolschen Modell nicht berücksichtigt. Als Ergebnis wurden die Dokumente ausgegeben, in denen ein gesuchter Term oder Ausdruck einmal oder mehrmals vorkommt (Die präzise Anzahl der Termvorkommen ist für Boolsches Modell irrelevant) Wenn die Suchmaschine auf einem Vektormodell basiert, bekommt man die präziseren Ergebnisse und die ausgegebenen Dokumente werden nach dem Ähnlichkeitsgrad sortiert. Die Mängel unseres Programms liegen darin, dass die Lupy-Bibliothek nicht alle in Lucene-Version implementierten Funktionen zur Verfügung stellt (sie müssten von Anwender selbst implementiert werden).

51 Verbesserungen Implementierung einer auf dem Vektormodell basierten Suchmaschine (Termfrequenz und nicht nur Termvorkommen wird berücksichtigt). Man könnte eine hybride Suchmaschine implementieren, die Boolsches Modell und Vektor-Modell verbindet. Integrieren einer Liste mit Stoppwörter Index-Datei mit einer kleineren Anzahl der Elemente (Fields) wird durchsucht Berücksichtigen der Sonderzeichen

52 Exkurs: Softwaresysteme, die Lucene benutzen Wikipedia für Volltextsuche Beagle benutzt ein Tor von Lucene zu C# Beagle ist eine Desktop- Suchmachine, die die Suche nach Dateien, s, Chatlogs, etc. ermöglicht, ähnlich wie etwa Google Desktop Search Nutch (eine komplette Search Engineimplementierung), die Lucene verwendet CNET verwendet Lucene, um ihre Produktkategorieauflistungen zu suchen Midgard verwendet Lucene für seine Index-Bewegung und Ganztextsuche. Es ist ein Software-Framework, mit dem Webanwendungen wie Web Content Managment Systeme entwickelt werden können, um Informationen professionell online zu verwalten LIRE (Lucene Bild-Wiederherstellung), die die Lucene Search Engine verwendet Weitere Anwendungen siehe

53 Literatur Bazea-Yates, R., Ribeiro-Neto, B. (1999). Modern Information Retrieval. New York. Carstensen, K., et al. (Hrsg.) (24). Computerlinguistik und Sprachtechnologie. München. Owens, Steven J (21). Lucene Tutorial. Ferguson, John (25). Lucene: a tutorial introduction to full-text indexing in Java. duction_to Schumann, Georg (26). Lucene. Java. cms.fhaugsburg.de/report/26/schumann_georg Lucene/Lucene.pdf