5. Information Retrieval

Größe: px
Ab Seite anzeigen:

Download "5. Information Retrieval"

Transkript

1 5. Information Retrieval

2 Inhalt 5.1 Information Retrieval 5.2 Vorverarbeitung der Dokumente 5.3 Boolesches Retrieval 5.4 Vektorraum-Modell 5.5 Evaluation 5.6 Implementierung 5.7 Websuche 2

3 5.1 Information Retrieval Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) [Manning 2008] Information Retrieval ist ein Fachgebiet in der Schnittmenge von Informationswissenschaft, Informatik und Computerlinguistik Weitgehend unabhängige, parallele Entwicklung zum Fachgebiet Datenbanken der Informatik mit nun zunehmendem Ideenaustausch 3

4 Information Retrieval Information Retrieval befasst mit Suche nach Inhalten Artikel (z.b. aus Wissenschaft und Presse) Webseiten Office-Dokumente (z.b. Präsentationen und Spreadsheets) s Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) Benutzerprofile (z.b. auf Facebook oder XING) [Manning 2008] 4

5 Information Retrieval Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) Daten haben meist keine oder nur wenig Struktur Einfache Textdokumente (keine Struktur) HTML (Überschriften und Absätze markiert) JSON und XML (semistrukturiert) [Manning 2008] RDBMSs, im Gegensatz, betrachten strukturierte Daten 5

6 Information Retrieval Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) [Manning 2008] Informationsbedürfnis des Benutzers als Ausgangspunkt selten präzise (z.b. Was kann man in Berlin unternehmen?) ungenau als Anfrage formuliert (z.b. berlin sights) RDBMSs, im Gegensatz, bieten Anfragesprache mit genau definierter Semantik (z.b. relationale Algebra) 6

7 Information Retrieval Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) Große Datenmengen mit rapidem Wachstum Desktop ~ Dokumente The New York Times ( ) ~ Dokumente WWW im Jahr 1998 ~ Dokumente [Manning 2008] WWW im Jahr 2008 ~ Dokumente 7

8 Historisches Bibliotheken (seit ca v. Chr.) Katalogisierung nach Titel, Erscheinungsjahr, Autoren oder Schlagwörtern Klassifikationsschemata zur inhaltlichen Einordnung (z.b. Dewey-Dezimalklassifikation) JMC Vannevar Bushs Memex (1945) [3] erweitertes Gedächtnis (memory extender) Verknüpfung und Annotation von Inhalten 8

9 Historisches SMART System von Salton et al. (1960er) Rangordnung der Ergebnisse Berücksichtigung von Rückmeldungen des Benutzers TREC und andere Benchmark-Initiativen (seit 1992) Google und andere Suchmaschinen (seit frühen 1990er) 9

10 IR vs. DBMSs IR-Systeme und DBMSs unterscheiden sich wie folgt unstrukturierte vs. strukturierte Daten (z.b. Zeitungsartikel vs. Attribute eines Produkts) vages vs. genau definiertes Informationsbedürfnis (z.b. Berichte über Berlin vs. meistverkauftes Produkt) vage vs. genau definierte Semantik der Anfragen (z.b. Schlüsselwortanfragen vs. Relationale Algebra) Rangordnung vs. keine Rangordnung der Ergebnisse (z.b. Berichte über Berlin vs. Studenten im dritten Semester) Mensch vs. Anwendung als typischer Anwender 10

11 IR in DBMSs DBMSs integrieren zunehmend IR-Funktionalität Volltextsuche (z.b. in MS SQL Server und PostgreSQL) auf textuellen Attributen mit linguistischer Vorverarbeitung, sowie Rangordnung der Ergebnisse IR-Systeme werden zunehmend als DBMSs eingesetzt ElasticSearch und Apache Solr erweitern Apache Lucene als traditionelles IR-System zur Indexierung und Suche von semi-strukturierten Dokumenten (z.b. in JSON oder XML) und können je nach Anwendung ein (R)DBMS ersetzen 11

12 Gütemaße im Information Retrieval Informationsbedürfnis des Benutzers und Semantik der Anfragen sind vage Gütemaße messen inwiefern das von einem IR-System zurückgelieferte Ergebnis das Informationsbedürfnis des Benutzers befriedigen kann Alle Dokumente in der Dokumentensammlung werden hierzu als relevant bzw. nicht-relevant für das Informationsbedürfnis des Benutzers klassifiziert 12

13 Präzision und Ausbeute (precision and recall) Präzision (precision) und Ausbeute (recall) als zwei Maße der Ergebnisgüte relativ zum Informationsbedürfnis Relevante Ergebnisse (true positives) Irrelevante Ergebnisse (false positives) Relevante Nicht-Ergebnisse (false negatives) Irrelevante Nicht-Ergebnisse (true negatives) Ergebnis Relevante Dokumente tn tn tn tn tn tn tn tn fn fn fn tn tn tn fn fn fn tn tn fp tp tp fn tn tn fp fp fp tn tn tn tn tn tn tn tn 13

14 Präzision und Ausbeute (precision and recall) Präzision (precision) #tp #tp +#fp = # relevanter Dokumente im Ergebnis # Dokumente im Ergebnis misst Fähigkeit nur relevante Dokumente zu liefern Ausbeute (recall) #tp #tp +#fn = # relevanter Dokumente im Ergebnis # relevanter Dokumente misst Fähigkeit alle relevanten Dokumente zu liefern 14

15 Literatur C. D. Manning, P. Raghavan, H. Schütze: Information Retrieval, Cambridge University Press, W. B. Croft, D. Metzler, T. Strohman: Search Engines Intelligent IR in Practice, Pearson,

16 5.2 Vorverarbeitung der Dokumente Dokumente durchlaufen Vorverarbeitung (preprocessing), bevor sie indexiert werden, um dann mit Hilfe des Index Anfragen bearbeiten zu können, z.b. Entfernen von Formatierungen (z.b. HTML-Tags) Zerlegung (tokenization) in Bestandteile (tokens) Normalisierung der Bestandteile zu Termen (terms) 16

17 Zerlegung (tokenization) Dokumente werden in Bestandteile (tokens) zerlegt, indem das Dokument u.a. an Leerzeichen (white spaces) aufgeteilt wird und Satzzeichen entfernt werden Zusätzlich kann eine Aufteilung von Mehrwortgruppen (compound splitting) vorgenommen werden (z.b. bodenseeschifferpatentantrag) 17

18 Normalisierung (normalization) Normalisierung der Bestandteile führt zu Termen (terms), die indexiert und gesucht werden können, z.b. Umwandlung in Kleinbuchstaben (lower casing) Vereinheitlichung von Umlauten (z.b. ä wird zu ae) Vereinheitlichung von Datumsangaben (z.b. 2011/05/21) 18

19 Wortreduktion (stemming, lemmatization) Wörter kommen in verschiedenen Beugungsformen vor Konjugation bei Verben (z.b. go, gone, went) Deklination bei Substantiven und Adjektiven (z.b. boat, boats, mouse, mice) Komparation bei Adjektiven (z.b. cheap, cheaper, cheapest) Wörter können zudem den gleichen Wortstamm haben (z.b. work, worker, working, drive, driver, driven) 19

20 Grundformreduktion Reduktion auf Grundform (auch: Lemmatisierung) (lemmatization) erfolgt immer auf ein existierendes Wort Nominativ Singular bei Substantiven und Adjektiven (z.b. boat und boats wird zu boat) Infinitiv bei Verben (z.b. go, gone und went wird zu go) Bestimmung der korrekten Grundform ist oft schwierig und Bedarf zusätzlicher Information in Form von Kontext oder Wortart (part of speech) Wörterbuch (z.b. um mice auf mouse abzubilden) 20

21 Stammformreduktion Reduktion auf Stammform (stemming) erfolgt auf Wortstamm, der kein existierendes Wort sein muss (z.b. boats auf boa und vegetation auf veget) Regelbasierte Ansätze zur sukzessiven Suffixentfernung für schwach gebeugte (flektierte) Sprachen wie Englisch 21

22 Porters Algorithmus Porters Algorithmus entfernt Suffixe in fünf Schritten Schritt 1a: Wende Regel für längstmögliches Suffix an sses ss ies i s _ Schritt 2: Falls Token aus zwei oder mehr Silben besteht ational ate tional tion enci ence izer ize 22

23 Porters Algorithmus Implementierung unter Online-Demo unter 23

24 Wortreduktion Durch eine Reduktion von Wörtern auf ihre Grundform oder Stammform kann man erreichen tolerantere Suche (z.b. beim Booleschen Retrieval), die nicht mehr von spezifischer Wortform abhängt geringere Anzahl zu indexierender Terme Verbesserung des Recall (z.b. für working conditions chinese factories) Verschlechterung der Präzision (z.b. für marine vegetation) Nutzen der Wortreduktion für IR ist umstritten, tendenziell größer für stark flektierte Sprachen (z.b. Deutsch) 24

25 Zipf sches Gesetz (Zipf s law) George K. Zipf ( ) beobachtete, dass für natürlichsprachige Text gilt, dass die Häufigkeit eines Wortes f(w) umgekehrt proportional zu seinem Häufigkeitsrang r(w) ist, d.h.: f(w) Ã 1 r(w) mit 1 Quelle: Das häufigste Wort kommt somit doppelt so oft vor wie das zweithäufigste Wort zehnmal so oft vor wie das Wort auf Rang 10 hundertmal so oft vor wie das Wort auf Rang

26 Zipf sches Gesetz (Zipf s law) Beispiel: Worthäufigkeit und Häufigkeitsrang in The New York Times zwischen 1987 und 2007 log(häufigkeit) log(häufigkeitsrang) 26

27 Stoppworteliminierung (stopword removal) Stoppwörter (z.b. a, the, of) sind Wörter, die nur wenig Information beinhalten, da sie z.b. in sehr vielen Dokumenten vorkommen und somit von geringem Nutzen für die Beantwortung von Anfragen sind Eliminierung von Stoppwörtern reduziert den zur Indexierung benötigten Speicherplatz verbessert die Antwortzeiten kann Ergebnisgüte verbessern (z.b. a song of fire and ice) kann Ergebnisgüte verschlechtern (z.b. the who) 27

28 Stoppworteliminierung (stopword removal) Stoppworteliminierung anhand einer manuell definierten Stoppwortliste, evtl. mit themenspezifischen Stoppwörtern a, an, and, are, as, at, be, by, for, has, he, in, is, it, its, of, on, that, the, to, was, where, will, with Stoppwortliste kann alternativ automatisch erstellt werden und alle Wörter enthalten, die in mehr als einem bestimmten Anteil der Dokumente vorkommen 28

29 Bag-of-Words Vorverarbeitung wandelt Dokument in eine Multimenge von Wörtern (bag of words) um, d.h. die Information wie oft ein Wort im Dokumente vorkommt bleibt erhalten 29

30 5.3 Boolesches Retrieval Boolesches Retrieval als früher Ansatz, der noch Anwendung (z.b. Katalogsuche in Bibliotheken) findet Dokumente als Belegungen Boolescher Variablen, die anzeigen, ob ein Term im Dokument vorkommt oder nicht Anfragen als Boolesche Ausdrücke, welche Terme mit den Operatoren AND, OR und NOT verknüpfen 30

31 Boolesches Retrieval Beispiel: Dokumente über George Martin oder Neil Gaiman (george AND martin) OR (neil AND gaiman) george martin neil gaiman d d d d d mit Darstellung der Dokumentensammlung als Term-Dokument-Matrix 31

32 Erweiterungen Boolesches Retrieval kann erweitert werden durch Aufteilung der Dokumenten in Felder (z.b. Titel, Abstract) zusätzliche Operatoren basierend auf Wortposition (NEAR) Vorteil: Semantik von Anfragen (d.h. erwartetes Ergebnis) ist eindeutig definiert Nachteil: keine Rangordnung des Ergebnisses nach Relevanz (ranking) 32

33 Zusammenfassung Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Präzision und Ausbeute als elementare Gütemaße Zerlegung und Normalisierung der Dokumente (z.b. Eliminierung von Stoppwörtern, Wortreduktion) Boolesches Retrieval als früher Ansatz, der noch immer Anwendung findet und Grundlage moderner Ansätze ist 33

34 Literatur [1] C. D. Manning, P. Raghavan, H. Schütze: Information Retrieval, Cambridge University Press, 2008 [2] W. B. Croft, D. Metzler, T. Strohman: Search Engines Intelligent IR in Practice, Pearson, 2010 [3] V. Bush: As We May Think, The Atlantic,

5. Information Retrieval

5. Information Retrieval 5. Information Retrieval Inhalt 5.1 Information Retrieval 5.2 Vorverarbeitung der Dokumente 5.3 Boolesches Retrieval 5.4 Vektorraum-Modell 5.5 Evaluation 5.6 Implementierung 5.7 Websuche 2 5.1 Information

Mehr

2. Natürliche Sprache

2. Natürliche Sprache 2. Natürliche Sprache Rückblick Information Retrieval an der Schnittstelle zwischen Bibliotheks- und Kommunikationswissenschaft, Computerlinguistik und Informatik Informationsbedürfnis des Benutzers als

Mehr

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Rückblick Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Präzision und Ausbeute als elementare Gütemaße Zerlegung und Normalisierung

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Information Retrieval. Domenico Strigari Dominik Wißkirchen

Information Retrieval. Domenico Strigari Dominik Wißkirchen Information Retrieval Domenico Strigari Dominik Wißkirchen 2009-12-22 Definition Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany BIW Wahlpflichtmodul Einführung in Solr, Pipeline und REST Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2018-05-29 Überblick über gängige Lösungen 2 3 in a nutshell

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Vom Suchen und Finden - Google und andere Ansätze

Vom Suchen und Finden - Google und andere Ansätze Vom Suchen und Finden - Google und andere Ansätze Norbert Fuhr Universität Duisburg Essen FB Ingenieurwissenschaften Abteilung Informatik 12. Mai 2005 Gliederung 1 Einführung 2 Grundlagen 3 Erweiterte

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Information-Retrieval: Evaluation

Information-Retrieval: Evaluation Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Definition: Ziele, Aufgaben, Methoden (1) Definition (1.1) Key issues (users needs):

Definition: Ziele, Aufgaben, Methoden (1) Definition (1.1) Key issues (users needs): Definition: Ziele, Aufgaben, Methoden (1) A digital library is an electronic information access system offering users a coherent view of a selected, organized, and managed body of information. A digital

Mehr

Deutsche und mehrsprachige Volltextsuche mit Apache Solr

Deutsche und mehrsprachige Volltextsuche mit Apache Solr Drupal Camp Essen 2013 Deutsche und mehrsprachige Volltextsuche mit Apache Solr Markus Kalkbrenner (mkalkbrenner) Volltextsuche ist super! 2 Noch besser mit Autovervollständigung Autocomplete von kuchen

Mehr

Vektorraum-Modell bildet Dokumente und Anfrage in gemeinsamen hochdimensionalen Vektorraum ab

Vektorraum-Modell bildet Dokumente und Anfrage in gemeinsamen hochdimensionalen Vektorraum ab Rückblick Vektorraum-Modell bildet Dokumente und Anfrage in gemeinsamen hochdimensionalen Vektorraum ab Vektorkomponenten werden mittels tf.idf-gewichtung unter Berücksichtigung von Häufigkeiten bestimmt

Mehr

Datenbanken & Informationssysteme (WS 2016/2017)

Datenbanken & Informationssysteme (WS 2016/2017) Datenbanken & Informationssysteme (WS 2016/2017) Klaus Berberich ([email protected]) Wolfgang Braun ([email protected]) 0. Organisatorisches Dozenten Klaus Berberich ([email protected])

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer [email protected] Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer [email protected] Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist Rückblick Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal

Mehr

Praktikum Information Retrieval Wochen 12: Suchmaschine

Praktikum Information Retrieval Wochen 12: Suchmaschine Praktikum Information Retrieval Wochen 12: Suchmaschine Matthias Jordan 7. November 18. November 2011 Lösungen: Upload bis 18. November 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval

Mehr

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert) Klassen von Retrieval-Modellen Boolesche und Vektorraum- Modelle Boolesche Modelle (Mengen-basiert) Erweitertes Boolesches Modell Vektorraummodelle (vector space) (statistisch-algebraischer Ansatz) Latente

Mehr

Automatisiertes Annotieren in CATMA

Automatisiertes Annotieren in CATMA Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik [email protected]

Mehr

Die hbz-öb-datenbank in der Suchmaschine Christine Baron, Roswitha Schweitzer. 10. DigiBib-Anwendertreffen, Dortmund

Die hbz-öb-datenbank in der Suchmaschine Christine Baron, Roswitha Schweitzer. 10. DigiBib-Anwendertreffen, Dortmund Die hbz-öb-datenbank in der Suchmaschine Christine Baron, Roswitha Schweitzer 10. DigiBib-Anwendertreffen, 30.11.2012 1 Dortmund Die hbz-öb-datenbank Motivation Stand Ausblick Technik/Verfahren Änderungen

Mehr

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008 SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Exposé zur Studienarbeit. 04. August 2010

Exposé zur Studienarbeit. 04. August 2010 Exposé zur Studienarbeit Relevanzranking in Lucene im biomedizinischen Kontext Christoph Jacob Betreuer: Phillipe Thomas, Prof. Dr. Ulf Leser 04. August 2010 1. Motivation Sucht und ihr werdet finden dieses

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Einführung in Apache Solr

Einführung in Apache Solr Einführung in Apache Solr Markus Klose & Daniel Wrigley O'REILLY Beijing Cambridge Farnham Köln Sebastopol Tokyo Inhalt Vorwort IX Einleitung XI 1 Schnelleinstieg in Solr 1 Was ist Solr? 1 Was ist Lucene?

Mehr

Boolesche- und Vektorraum- Modelle

Boolesche- und Vektorraum- Modelle Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle

Mehr

Thema: Prototypische Implementierung des Vektormodells

Thema: Prototypische Implementierung des Vektormodells Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Hauptseminar: Information Retrieval WS 06/07 Thema: Prototypische Implementierung des Vektormodells Sascha Orf Carina Silberer Cäcilia

Mehr

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining 6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Paul Prasse Michael Großhans Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. 6 Leistungspunkte

Mehr

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus

Mehr

Motivation. Wie evaluiert man die Effektivität eines IR-Systems? Ideal: Ermittle die Zufriedenheit der Benutzer. Praxis:

Motivation. Wie evaluiert man die Effektivität eines IR-Systems? Ideal: Ermittle die Zufriedenheit der Benutzer. Praxis: 5. Evaluation Motivation Wie evaluiert man die Effektivität eines IR-Systems? Zur Erinnerung: Werden die richtigen Dinge getan? Ideal: Ermittle die Zufriedenheit der Benutzer schwierig zu messen (z.b.

Mehr

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17 Seminar im Modul M-GSW-09 WiSe 2016/17 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität

Mehr

Inverted Files for Text Search Engines

Inverted Files for Text Search Engines Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

HS Information Retrieval

HS Information Retrieval HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:

Mehr

Modul 1: Wege in die digitale Welt

Modul 1: Wege in die digitale Welt Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 1: Wege in die digitale Welt Martin Volk [email protected] Themen in diesem Modul 1. Was verstehen wir unter Digital Humanities?

Mehr

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie) Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER [email protected] -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

LDA-based Document Model for Adhoc-Retrieval

LDA-based Document Model for Adhoc-Retrieval Martin Luther Universität Halle-Wittenberg 30. März 2007 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

Grundbegriffe des Information Retrieval

Grundbegriffe des Information Retrieval Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

Relevance Ranking Revisited Mischen unterschiedlicher Quellen in VuFind

Relevance Ranking Revisited Mischen unterschiedlicher Quellen in VuFind Relevance Ranking Revisited Mischen unterschiedlicher Quellen in VuFind 3. VuFind Anwendertreffen 2014 Frankfurt Stefan Winkler Anfragen im Support Warum kommt bei meiner Suche ein Dokument an dieser Stelle?

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Enterprise Search. Präsentation zur Seminararbeit. im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme

Enterprise Search. Präsentation zur Seminararbeit. im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme Enterprise Search Präsentation zur Seminararbeit im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme Michael Hübschmann 14. Januar 2014 Betreuung: Dr. Hella Seebach Überblick 1. Motivation

Mehr

1. Vorlesung,

1. Vorlesung, 1. Vorlesung, 16.10.2006 Einführung und Motivation, Beispiel Information versus Daten Grundlegende Konzepte Aufgaben des Anwenders Logische Sicht auf Dokumente Dokumentvorverarbeitung Dokumentsuche mit

Mehr

7. XML-Datenbanksysteme und SQL/XML

7. XML-Datenbanksysteme und SQL/XML 7. XML-Datenbanksysteme und SQL/XML Native XML-DBS vs. XML-Erweiterungen von ORDBS Speicherung von XML-Dokumenten Speicherung von XML-Dokumenten als Ganzes Generische Dekomposition von XML-Dokumenten Schemabasierte

Mehr

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register GK C: Einführung in die Korpuslinguistik Anke Lüdeling [email protected] Sommersemester 2003 Überblick Registervariation multidimensionale Analyse Register quantitative Analyse Dimensionen:

Mehr

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Morphologie. Sarah Bosch,

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Morphologie. Sarah Bosch, Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Morphologie Wiederholung Aufgabe 1 Was ist Morphologie, Morphem? 3 Aufgabe 1 Was ist Morphologie, Morphem? Teildisziplin der

Mehr

Datenbank-Recherche. SS Veranstaltung 10. April Philipp Mayr - Philipp Schaer -

Datenbank-Recherche. SS Veranstaltung 10. April Philipp Mayr - Philipp Schaer - Datenbank-Recherche SS 2014 2. Veranstaltung 10. April 2014 Philipp Mayr - [email protected] Philipp Schaer - [email protected] GESIS Leibniz-Institut für Sozialwissenschaften 2 Vorstellung

Mehr

Fuzzy-Suche in Application Express

Fuzzy-Suche in Application Express Fuzzy-Suche in Application Express So geht s! Carsten Czarski Consulting Member of technical staff - Oracle Application Express September 2017 Copyright 2016 Oracle and/or its affiliates. All rights reserved.

Mehr

The English Tenses Die englischen Zeitformen

The English Tenses Die englischen Zeitformen The English Tenses Die englischen Zeitformen Simple Present (Präsens einfache Gegenwart) Handlungen in der Gegenwart die sich regelmäßig wiederholen oder einmalig geschehen I go you go he goes she goes

Mehr

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval

Mehr

Informationssysteme für Ingenieure

Informationssysteme für Ingenieure Informationssysteme für Ingenieure Vorlesung Herbstsemester 2016 Überblick und Organisation R. Marti Organisation Web Site: http://isi.inf.ethz.ch Dozent: Robert Marti, martir ethz.ch Assistenz:??

Mehr

Information Retrieval

Information Retrieval Reginald Ferber Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web d p u n kt.ver I ag Inhaltsverzeichnis I Grundlagen und klassische IR-Methoden 1 1 1.1 1.2 1.3

Mehr

Boole'sches Modell <is web>

Boole'sches Modell <is web> Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht

Mehr

Information Retrieval oder: wie Suchmaschinen funktionieren

Information Retrieval oder: wie Suchmaschinen funktionieren Information Retrieval oder: wie Suchmaschinen funktionieren Prof. Dr. Andreas Henrich Angewandte Informatik I Softwaretechnik und Informationssysteme Fakultät für Mathematik und Physik Universität Bayreuth

Mehr

Apache Lucene und Oracle in der Praxis - Volltextsuche in der Cloud

Apache Lucene und Oracle in der Praxis - Volltextsuche in der Cloud Apache Lucene und Oracle in der Praxis - Volltextsuche in der Cloud Frank Szilinski, esentri software GmbH Dominic Weiser, esentri consulting GmbH Ettlingen Schlüsselworte: Apache Lucene, Apache Solr,

Mehr