Grundbegriffe des Information Retrieval
|
|
|
- Paula Kurzmann
- vor 9 Jahren
- Abrufe
Transkript
1 Grundbegriffe des Information Retrieval Alexandra Bünzli Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet, wenn sie erschlossen sind 1.2 Anwendung schon länger im Literatur- und Bibliothekswesen (Ursprung) heute auch vor allem im WWW 1.3 Probleme Nutzer können ihren Informationsbedarf meist nur vage formulieren der Informationsbedarf kann sich im Verlauf der Anfrage auch verändern 2 Konzepte und Wissensrepräsentation 2.1 Zwei grundsätzliche Konzepte Freitextsuche Keine neue Repräsentation, sondern Verbesserung der Suche im Text der Dokumente: Vorbereitung des Textes durch Zerlegung in einzelne Wörter, Stoppworteliminierung (Stoppwörter sind häufige, nicht sinntragende Wörter wie Artikel, Präpositionen etc.) und Satzenderkennung. Im so reduzierten Text stellen sich vor allem Probleme mit Homographen, Polysemen, Flexions- und Derivationsformen sowie Komposita. Man versucht sie mit folgenden Ansätzen in den Griff zu bekommen: informatischer Ansatz (Funktionen auf Zeichenkettenebene) computerlinguistischer Ansatz (morphologische und syntaktische Verfahren Suche nach Wörtern) Semantischer Ansatz Neue Repräsentation in einer Dokumentationssprache: Es wird weitgehend unabhängig vom Text formuliert. Beispiele sind Klassifikationen und Thesauri. 1
2 2.2 Erschliessungsmethoden Grundformenreduktion Informatischer Ansatz In den folgenden Beispielen wird für beschränkte Trunkation (das heisst ein Operatorsymbol steht für genau ein Zeichen im Wort) das Symbol $, für die unbeschränkte Trunkation (das Operatorsymbol steht für eine beliebig lange Zeichenkette) das Symbol # verwendet. Trunkierung (truncation): schreib#: schreiben, schreibt, schreibst, schreibe schreib$$: schreiben, schreibst #schreiben: schreiben, beschreiben, anschreiben, verschreiben $$schreiben: beschreiben, anschreiben Maskierung schr$$b#: schreiben, schrieb / schrauben h$$s#: Haus, Häuser / Hanse, Hass, hassen, hausen Kontextoperatoren CL-Ansatz genauer Wortabstand ($): retrieval $ information: retrieval of information, retrieval with information loss maximaler Wortabstand (#): information # # retrieval: information retrieval, information storage and retrieval Wortreihenfolge (,): information #, retrieval: informaton retrieval, retrieval of information gleicher Satz (.): information # retrieval.: matcht weder...this information. Retrieval of data... noch...storage of information. Its retrieval.... Wortstamm oder Grundform als Indexterm (durch stemming, Lemmatisierung) Musterbasierte Ersetzungsregeln: Ende eines Wortes wird nacheinander mit verschiedenen Zeichenmustern verglichen (Flexion, Derivation) sobald eine Übereinstimmung stattfindet, wird es durch eine in der Regel angegebene Zeichenkette ersetzt. (Erfolgreich bei Sprachen, in denen sich die Worte bei der Bildung der verschiedenen Formen nur wenig ändern, z.b. Englisch, nicht aber Deutsch.) Lexikonbasierte Reduktionsmethoden: Die notwendige Information zur Bildung der verschiedenen Formen wird in Wörterbüchern gespeichert. Syntaktische Verfahren dienen v.a. zur Identifikation von Komposita (robuste und wörterbuchunabhängige Parser ideal) Dokumentationssprachen Klassifikation Strukturieren der Themen und Objekte nach einem Schema Hierarchische Klassifikation (Baumstrukturen) Internationale Dezimalklassifikation: sachgebietsorientierter Zugang zu den Wissensgebieten. Es sind immer maximal zehn Verzweigungen möglich, ausgehend von folgenden zehn Hauptabteilungen: 2
3 0 Allgemeines 1 Philosophie 2 Religion, Theologie 3 Sozialwissenschaften, Recht, Verwaltung 4 (Zur Zeit nicht belegt) 5 Mathematik, Naturwissenschaften 6 Angewandte Wissenschaften, Medizin, Technik 7 Kunst, Kunstgewerbe, Photographie, Musik, Spiel, Sport 8 Sprachwissenschaft, Philologie, Schöne Literatur, Literaturwissenschaft 9 Heimatkunde, Geographie, Biographien, Geschichte Nachteile frühe Entschiedungen beim Suchprozess nötig lassen sich nur schwer an neue Entwicklungen anpassen, nicht flexibel z.t. darum zusätzliche Verweise zwischen den Klassen möglich (Doppelstellen und Polyhierarchien) oder/und Sachverhalte können zum Zeitpunkt der Klassifizierung von Objekten zusätzlich genauer beschrieben werden (postkoordinierende Verfahren) Thesauri Thesauri sind geordnete Zusammenstellungen von Begriffen eines Fachgebiets mit ihren (natürlichsprachlichen) Beziehungen (Relationen, relations). Hierarchische Strukturen werden durch Beziehungen erzeugt, Beziehungen wie allgemeiner (Oberbegriff, broader Term), spezieller (Unterbegriff, narrower Term), synonym, verwandt (related), Gegensatz (antonym) etc. Terminologische Kontrolle durch: Erfassung von Synonymen Kennzeichnung von Homographen und Polysemen Festlegung von Vorzugsbenennungen Deskriptoren Thesauri werden verwendet um die Dokumente einer Sammlung möglichst eindeutig mit Fachbegriffen zu indexieren. Kernstück ist ein kontrolliertes Vokabular, das die sogenannten Deskriptoren bilden. Deskriptoren sind die im Thesaurus zugelassenen ausgewählten Terme, die eine klar definierte Bedeutung im zu beschreibenden Sachverhalt haben. Es ist auch eine Menge von Synonymen definiert, die zulässt, dass auch Terme, die im Thesaurus nicht zugelassen sind, aber eine gleiche oder ähnliche Bedeutung haben wie ein Deskriptor, gefunden werden können. 3 Suchmethoden 3.1 Nicht-probabilistische IR-Modelle Boolesches Retrieval (boolesche Suche, boolean retrieval) Idee Mengenoperationen auf Mengen von Dokumenten anwenden, die durch das Auftreten von bestimmten Wörtern (Termen) charakterisiert sind Methoden Elimination von Stoppwörtern (häufige, nicht sinntragende Wörter wie Artikel, Präpositionen... in Stoppwortliste gespeichert) Indexieren des Dokuments mit intellektuell vergebenen Termen oder automatischen Verfahren Anwendung von Booleschen Operatoren (AND, OR, NOT) 3
4 Erweiterungen mit Operatoren wie NEAR (Suche nach Wortgruppen, deren Wörter aufeinander folgen müssen oder einen angegebenen Abstand maximal einhalten müssen) und Platzhaltern (wild cards) für Buchstaben oder Zeichenketten, sowie mit speziellen Feldern für Zahlen und entsprechende Vergleichsoperatoren (>, <) Nachteile keine Gewichtung, keine Rangordnung Ergebnismenge schwer zu kontrollieren Umständliche Frageformulierung Überforderung der Benutzer Schlechteste Retrievalqualität aller bekannten Verfahren (v.a. wegen der Nichtberücksichtigung der Unsicherheit der Textrepräsentation und Vagheit der Anfragen), trotzdem am häufigsten gebraucht! Vektorraummodell (Vector-Space-Model) Idee Dokumente werden durch Vektoren repräsentiert, die aus den Termgewichten ( Wichtigkeit eines Terms zur Beschreibung des jeweiligen Dokuments, damit es gut gefunden werden kann) hervorgehen. Anfragen werden auch durch einen Vektor definiert. Durch den Abstand dieser Vektoren kann ein Ähnlichkeitsmass (Berechnung durch Skalarprodukt oder Kosinusmass etc.) definiert werden, um die Dokumente zu vergleichen eine Rangfolge wird hergestellt: Die ähnlichsten Dokumente zur Anfrage befinden sich ganz oben in der Liste. Gewichtung lokale Einflüsse Häufigkeit des Terms im Dokument Häufigkeit des Terms in Relation zum häufigsten Term im Dokument bei Dokumenten mit Struktur: Gewichtung nach Ort des Vorkommens (z.b. wird ein Wort im Titelfeld als wichtiger eingestuft) Gewichtung nach Position: Wichtige Terme eher am Anfang des Dokuments (z.b. Nachrichtenmeldungen haben immer den gleichen Aufbau: 1. wesentliche Neuigkeit, 2. Hintergründe, 3. Details und Kommentare) globale Einflüsse Dokumenthäufigkeit eines Terms (Terme, die in vielen Dokumenten vorkommen sind nicht geeignet zur Beschreibung werden als Indexterme schwach gewertet) In der Regel werden lokale und globale Kriterien bei der Gewichtung kombiniert, woraus dann die verwendete Gewichtung des Terms resultiert. Relevanzfeedback (Relevanzrückmeldung, relevance feedback): In kurzen Anfragen sind Termhäufigkeiten meist wenig sinnvoll in interaktiven Sitzungen muss der Benutzer nach der Anfrage die gefundenen Dokumente als relevant oder nicht relevant kennzeichnen, woraus ein neuer Anfrage-Vektor berechnet wird. 3.2 Probabilistische IR-Modelle Idee Probabilistische Modelle versuchen das Problem der Unsicherheit in der Textrepäsentation besser in den Griff zu bekommen. Es wird ein Mass für die Bedeutsamkeit eines Begriffs verwendet, das der Wahrscheinlichkeit entspricht, mit der dieser Begriff in einer bestimmten Umgebung vorkommt, oder mit der dieser Begriff einem Dokument als Deskriptor zugeordnet werden sollte. Dieses Mass lässt sich als Deskriptorgewicht benutzen, so dass sich die Dokumente in einer Rangfolge nachweisen lassen, die der Wahrscheinlichkeit der Relevanz bzgl. bestimmter Suchanfragen entspricht. 4
5 3.3 Evaluierung Ein ganzes System empirisch zu evaluieren ist nicht möglich, zu viele Faktoren müssten berücksichtigt werden Teilaspekte werden untersucht. (Man muss sich im Klaren sein, welchen Standpunkt man einnehmen will und ob er geeignet ist für die jeweilige Anwendung.) Standardevaluationsmethode Evaluierung mit den Qualitätsmassen Precision (Präzision) und Recall (Abdeckung): Man untersucht den Teilaspekt der Anzahl der gefunden relevanten Dokumente Precision: Anteil der relevanten Dokumente in der gefundenen Ergebnismenge Recall: Anteil der gefundenen relevanten Dokumente von allen vorhandenen relevanten Dokumenten (Problem: Die Bestimmung aller im System vorhandenen Dokumente, die ja von Menschen gemacht werden muss sehr aufwändig bei grossen Sammlungen (Die TREC stellt grosse Testsammlungen zur Evaluierung zur Verfügung) Gewünscht wäre ein hoher Recall und eine gute Präzision. Die beiden Masse sind in der Regel jedoch gegenläufig: wächst der Recall, nimmt die Präzision ab und umgekehrt. Man muss daher oftmals entscheiden, welches Mass für die jeweilige Aufgabe wichtiger ist. 5
Thesaurus 1. Merkmale:
Thesaurus 1 Eine Dokumentationssprache ist eine Menge sprachlicher Ausdrücke, die, nach bestimmten Regeln angewendet, der Beschreibung von Dokumenten zum Zweck des Speicherns und einer gezielten Wiederauffindung
Inhaltsverzeichnis. Information Retrieval. Anwendungsgebiet. Einführung. Ein Überblick. Einführung. Freitextsuche. Norbert Fuhr.
Inhaltsverzeichnis Information Retrieval Ein Überblick Norbert Fuhr Einführung Freitextsuche Universität Duisburg-Essen Vorlesung "Information Engineering" WS 2007/8 Retrievalmodelle Evaluierung UNIVERSITÄT
Information Retrieval Eine Einführung in das Indexieren
Seminar für Computerlinguistik Universität Zürich Sommersemester 2001 Seminar Semantikrepräsentation für Antwortextraktion Prof. Dr. M. Hess lic. phil. S.Clematide Information Retrieval Eine Einführung
Wissenschaftliches Arbeiten und Informationskompetenz in den Wirtschaftswissenschaften (2a)
Wissenschaftliches Arbeiten und Informationskompetenz in den Wirtschaftswissenschaften (2a) Schlüsselqualifikationen für Bachelor-Studierende (Ergänzungsbereich Modul E1) SoSe 2011 Alexander Holste / Schreibwerkstatt/Universitätsbibliothek
Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)
Klassen von Retrieval-Modellen Boolesche und Vektorraum- Modelle Boolesche Modelle (Mengen-basiert) Erweitertes Boolesches Modell Vektorraummodelle (vector space) (statistisch-algebraischer Ansatz) Latente
Boolesche- und Vektorraum- Modelle
Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle
Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)
Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des
Semiautomatische Erschließung von Psychologie-Information
PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt
Information Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
Information Retrieval Definition und Techniken. Prof. Dr. W. Riggert FH Flensburg
Information Retrieval Definition und Techniken Prof. Dr. W. Riggert FH Flensburg Gliederung Definition Techniken Informationsangebot und nachfrage Definition "Information Retrieval" Begriffsbeschreibung
Evaluation von IR-Systemen
Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen
Kapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
Information Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
Boole'sches Modell <is web>
Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht
Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren
Wörter - Texte - Information Möglichkeiten und Grenzen automatischer Erschließungsverfahren Automatische Indexierung - Einführung 1 Indexieren und Automatisches Indexieren Dokumente Volltexte bibliografische
Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7}
Dirk Lewandowski Web Information Retrieval Technologien zur Informationssuche im Internet DGI-Schrift (Informationswissenschaft 7} Inhalt Vorwort 9 Suchmaschinen im Internet - informationswissenschaftlich
Suchst Du noch oder weißt Du schon? Inhaltserschließung leicht gemacht mit automatischer Indexierung
Suchst Du noch oder weißt Du schon? Inhaltserschließung leicht gemacht mit automatischer Indexierung tekom-jahrestagung Wiesbaden, 06.-08.11.2013 Svenja Siedle, IAI [email protected] Übersicht Motivation
Information Retrieval
Reginald Ferber Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web d p u n kt.ver I ag Inhaltsverzeichnis I Grundlagen und klassische IR-Methoden 1 1 1.1 1.2 1.3
LIVIVO: Das neue ZB MED-Suchportal für Lebenswissenschaften Jana Pössel. AGMB-Tagung Basel, Seite
LIVIVO: Das neue ZB MED-Suchportal für Lebenswissenschaften Jana Pössel AGMB-Tagung Basel, 08.09.2015 MEDPILOT und GREENPILOT schließen einen Bund fürs Leben: LIVIVO Interdisziplinäre Literatursuche: Datenquellen
T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
Suchmaschinen. Anwendung RN Semester 7. Christian Koczur
Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe
WTI-Thesaurus-Hilfe: Technik und Management (TEMA )
Mit dem Thesaurus kann eine Vorauswahl an Suchbegriffen getroffen werden für eine effizientere Suche in der Datenbank. Er bietet erweiterte Suchmöglichkeiten gegenüber der Datenbank, z.b. die Wortfragmentsuche
GBI-Genios: Recherchieren in wiso
GBI-Genios: Recherchieren in wiso Sachsenkonsortium Mai 2009 Martin Knab Mai.2009 / MK 1 Agenda Inhalte Suchtechnik Einfache Recherche Dokumentenanzeige Erweiterte Recherche Suchhistorie ebooks mein wiso
Vom Suchen und Finden - Google und andere Ansätze
Vom Suchen und Finden - Google und andere Ansätze Norbert Fuhr Universität Duisburg Essen FB Ingenieurwissenschaften Abteilung Informatik 12. Mai 2005 Gliederung 1 Einführung 2 Grundlagen 3 Erweiterte
Nachteile Boolesches Retrieval
Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge
IR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme
Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
NLP im Information Retrieval
NLP im Information Retrieval Tokenisierung Stoppwortlisten Stemming, Morphologische Analyse, Kompositazerlegung Flaches Parsing: Phrasen, Mehrwortlexeme N-Gramme Lesartendisambiguierung Thesauri, Semantische
Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami
Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu
Studienprojekt TaxoSearch Spezifikation
Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna
Eigenschaften von Texten
Eigenschaften von Texten 1 Statistische Eigenschaften von Text Wie ist die Häufigkeit verschiedener Wörter verteilt? Wie schnell wächst die Größe des Vokabulars mit der Größe eines Korpus? Solche Faktoren
Vorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 [email protected] 1 Themenübersicht
Einfuhrung in die inhaltliche Erschließung. Grundlagen - Methoden - Instrumente
Jutta Bertram Einfuhrung in die inhaltliche Erschließung Grundlagen - Methoden - Instrumente ERGON VERLAG Inhalt Verzeichnis wichtiger Abkürzungen 11 Vorwort 13 Kapitel 1 - Inhaltserschließung im Überblick
Midas Metadata yield by Data Analysis
Midas Metadata yield by Data Analysis Glossar powered by Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten
Klassische Information Retrieval Modelle Einführung
Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012 Themen Information Retrieval Konzepte Grundkomponenten Information Retrieval Modell Definition Die klassischen Modelle
Information Retrieval
Information Retrieval 1 Information Retrieval Norbert Fuhr 13. Oktober 2011 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Daten Information Wissen 4 Dimensionen des IR 5 Rahmenarchitektur für IR-Systeme
(Bamberg)
Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags
Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250
Kapitel 16 Begriffe HHU Düsseldorf, WS 2008/09 Information Retrieval 250 Semantisches Umfeld "Find what I mean, not what I say" (Susan Feldman) natürlichsprachiges Umfeld Werkzeug: natürlichsprachiger
Communication Abstracts Database
Communication Abstracts Database Berichtszeitraum 1977 ff. Informationsanbieter Cambridge Scientific Abstracts Datenbanktyp Bibliographische Datenbank Inhaltsbeschreibung Internationale bibliographische
Information Retrieval
Information Retrieval Ferdinand Hofherr 17. Mai 2005 Zusammenfassung Information Retrieval spielt in vielen Bereichen unseres Lebens eine wichtige Rolle. Wir kommen damit zum Beispiel in Berührung, wenn
Information Retrieval
Information Retrieval Norbert Fuhr 12. April 2010 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Dimensionen des IR 4 Daten Information Wissen 5 Rahmenarchitektur für IR-Systeme IR in Beispielen IR-Aufgaben
PETRUS Szenario 1 Automatische Sachgruppenvergabe
PETRUS Szenario 1 Automatische Sachgruppenvergabe Elisabeth Mödden 1 Automatische Sachgruppenvergabe 1. DDC-Sachgruppen 2. Automatische Sachgruppenvergabe 3. Tests und Ergebnisse 4. Geschäftsprozesse und
Eigene MC-Fragen "Wissenschaftliche Literatur suchen und auswählen"
Eigene MC-Fragen "Wissenschaftliche Literatur suchen und auswählen" 1. Hilfreich bei der Aufstellung von Wortlisten ist nicht Papier und Stift die 5-W-Strategie Block-Building-Approach Thesaurus Boolesche
wiso richtig nutzen Claudia Olewinski GBI-Genios GmbH, München 2016
wiso richtig nutzen Claudia Olewinski GBI-Genios GmbH, München 2016 Inhalt 1 Die Suche 2 Das Suchergebnis 3 Ihr persönlicher wiso Account GBI-Genios Deutsche Wirtschaftsdatenbank GmbH München 2016 2 Orientierung
Sprachen sind durch folgenden Aufbau gekennzeichnet:
BNF UND SYNTAXDIAGRAMME 1. Allgemeines 1.1 Aufbau von Sprachen BNF und Syntaxdiagramme werden verwendet, um die Syntax einer Sprache darzustellen und graphisch zu veranschaulichen. Mit ihnen können entweder
Information Retrieval. Peter Kolb
Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation
Verteiltes Information Retrieval
Seminar Experimentielle Evaluierung im IR Verteiltes Information Retrieval Sascha Brink Sebastian Ruiling 20.12.2005 Universität Duisburg-Essen Agenda Motivation / Grundlagen CORI DTF Diskussion der Verfahren
Information Retrieval. Domenico Strigari Dominik Wißkirchen
Information Retrieval Domenico Strigari Dominik Wißkirchen 2009-12-22 Definition Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies
Literaturrecherche Effektiv recherchieren
Literaturrecherche Effektiv recherchieren Wissend ist, wer weiß, wo er findet, was er noch nicht weiß! Georg Simmel (1858 1918) Annemarie Kalugin, Fachreferentin für Physik, Mathematik und Elektrotechnik/Informationstechnik
Informationserschließung und Automatisches Indexieren
X.media.press Informationserschließung und Automatisches Indexieren Ein Lehr- und Arbeitsbuch Bearbeitet von Winfried Gödert, Klaus Lepsky, Matthias Nagelschmidt 1. Auflage 2011. Buch. xiv, 434 S. Hardcover
Mathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)?
5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)? Ladefaktor: α, n aktuelle Anzahl gespeicherter Werte m Tabellengröße. Einfacher Ansatz: rehash() a z c h s r b s h a z Wenn
LITERATURRECHERCHE I - GRUNDLAGEN
LITERATURRECHERCHE I - GRUNDLAGEN Seminarthemen Warum/Wonach suchen wir? (State of the Art; Ursprünge; Entwicklungen ) Was suchen wir? (Relevantes; Neues; Vergleichbares; Gegenteiliges in Bezug auf eine
Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene
Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:
Information Retrieval - Übersicht. Norbert Fuhr
Information Retrieval - Übersicht Norbert Fuhr 1 1. Einführung IR unterscheidet sich wesentlich zur Suche in klassischen Datenbanken IR beschäftigt sich mit Unsicherheit und Vagheit in Informationssystemen
Fit für die Projektarbeit. Literaturrecherche leicht gemacht!
Fit für die Projektarbeit Literaturrecherche leicht gemacht! Grundsätzlich 2 Recherchestrategien Formale Suche Es ist Ihnen bekannt was Sie suchen, weil z.b. Ihr Professor Ihnen ein bestimmtes Buch empfiehlt
Thesaurus Epochen und Stile
Thesaurus Epochen und Stile Kunstgeschichtliche Stilepochen und Kunstrichtungen mit Zeitraumangaben Erfahrungsaustausch Dokumentation der euregio-bodenseemuseen ALM Konstanz, 02.04.2009 Jens M. Lill, BSZ
Tagging / Social Bookmarking
Tagging / Social Bookmarking Bibliothekarische Weiterbildung: Web 2.0, Bibliothek 2.0, Bibliothekar/in 2.0? 29.10.-02.11.2007, 02 11 2007 Oberwolfach Dipl.-Ing. Sabine Giebenhain Universitätsbibliothek
Internet-Suchmaschinen Probabilistische Retrievalmodelle
Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.
Fit für die Projektarbeit. Thematische Literatursuche in 5 Schritten Basiert auf: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10.
Fit für die Projektarbeit Thematische Literatursuche in 5 Schritten Basiert auf: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10.2010 Thematische Literatursuche in 5 Schritten 1. Was suchen Sie?
Literaturdatenbanken
Workshop Tipps und Tools für eine effektive Literaturrecherche in Pubmed/Medline 5. Kongress für Arzneimittelinformation Köln 04.02.2017 Dr. Mirjam Gnadt Arzneimittelinformationsstelle der Bayerischen
Literaturrecherche in Fachdatenbanken Ein Kurzleitfaden des Fachbereiches Pädagogik und Rehabilitation bei intellektueller Beeinträchtigung
Literaturrecherche in Fachdatenbanken Ein Kurzleitfaden des Fachbereiches Pädagogik und Rehabilitation bei intellektueller Beeinträchtigung Inhaltsverzeichnis 1. Zugang zu den Datenbanken... 2 2. Literaturrecherche
