Information Retrieval
|
|
- Lorenz Adenauer
- vor 5 Jahren
- Abrufe
Transkript
1 Information Retrieval Eine kurze Einführung von Ronny Berger 18. Juli 2002 Typeset by FoilTEX
2 IR-Konzepte Definition von Information Retrieval: Gegenstand des Information-Retrieval ist die inhaltliche Suche in Texten, deshalb nennt man es oft auch Text- bzw. Dokumentenretrieval. Das klassische Anwendungsgebiet des IR sind Literatur-Datenbanken, in denen Kurzfassungen von Veröffentlichungen gespeichert sind. Es soll ermöglicht werden relevante Dokumente in verschiedenen Fachbereichen zu suchen. Wesentlich wichtiger, insbesondere durch den technologischen Fortschritt, sind im Moment andere Anwendungen, wie zb. die Suche im WWW und ähnlich grossen Dokumentensammlungen. Literaturdatenbanken in der Größenordnung 10 5 bis Typeset by FoilTEX 1
3 Effizienz und Effektivität Will man eine Bewertung eines Verfahrens treffen so muss man zwischen Effizienz und Effektivität unterscheiden. Speicherplatz Rechen-Zeit Anzahl der I/O-Operationen Anwortzeiten Typeset by FoilTEX 2
4 Wissenrepresentation für Texte Freitextsuche Verarbeitungsschritte : 1.Zerlegung des Textes in einzelne Wörter 2. Stoppworteliminerung 3. Satzenderkennung Die eigentliche Freitextsuche bezieht sich auf den reduzierten Text. Dabei ergeben sich folgende Probleme : - Homographen (verschieden gesprochene Wörter mit gleicher Schreibweise) - Polyseme (Wörter mit mehreren Bedeutungen) - Flexionsformen (die durch Konjugation und Deklination eines Wortes entstehen) - Derivationsformen (verschiedene Wortformen zu einem Wortstamm) - Komposita (mehrgliedrige Ausdrücke) Typeset by FoilTEX 3
5 Informatischer Ansatz Truncation- und Maskierungs-Operatoren dienen dazu, Flexions- und Derivationsformen von Wörtern zusammenzuführen. - Truncation : Front- und Endtruncation mit fester oder variabler Anzahl von Zeichen. z.b.: # für beliebig lange Zeichenfolge, $ für genau ein Zeichen. schreib# : schreiben, schreibt, schreibst, schreibe schreib$$ : schreiben, schreibst - Maskierung : bezieht sich auf ein Zeichen in der Mitte des Wortes. schr$$b# : schreiben, schrieb / schrauben h$$s# : Haus, Häuser / Hanse, hausen, hassen Typeset by FoilTEX 4
6 Computerlinguistischer Ansatz - graphematische Verfahren Basieren auf der Analyse von Buchstabenfolgen und werden im Bereich der Morphologie zur Zusammenführung von Flexions- bzw. Derivationsformen eines Wortes eingesetzt. - lexikalische Verfahren Basieren auf einem Wörterbuch, welches mehrgliedrige Ausdrücke enthalten kann bzw. verschiedene Bedeutungen mehrdeutiger Wörter verzeichnet. - syntaktische Verfahren Dienen zur Identifikation mehrgliedriger Ausdrücke Typeset by FoilTEX 5
7 Thesauri Definition : Nach DIN1463 ist ein Thesaurus eine geordnete Zusammenstellung von Begriffen mit ihren (natürlichsprachlichen) Bezeichnungen. Merkmale : 1. terminologische Kontrolle durch - Erfassung von Synonymen - Kennzeichnung von Homographen und Polysemen - Festlegung von Vorzugsbenennungen 2. Darstellung von Bezeichnungen zwischen Begriffen Typeset by FoilTEX 6
8 Standpunkte und Bewertungsmaße Retrievalbewertung Definitionen : GEF, sei die Menge der gefundenen Antwortobjekte REL, die Menge der relevanten Objekte in der Datenbank ALL, die Gesamtanzahl der Dokumente in der Datenbank. Typeset by FoilTEX 7
9 Typeset by FoilTEX 8
10 Basierend darauf kann man Maße für Precision und Recall definieren : Precicion : p = REL GEF GEF Recall : r = REL GEF REL Typeset by FoilTEX 9
11 Nicht-probabilistische Modelle Überblick über die Modelle Bool. Fuzzy Vektor Prob. Cluster Theoretische Basis: - boolesche Logik: x Fuzzy-Logik : - x Vektoralgebra : - - x - x - Wahrsch.Theorie: x - Bezug zur Retrievalqualität - x - x - gewichtete Indexierung - x x x x gewichtete Frageterms - x x x Fragestruktur : - linear - - x x - - boolesch x x x x - Typeset by FoilTEX 10
12 Term-by-Document Matrix Ein Beispiel : Diese kleine Beispieldatenbank enthällt folgende Dokumente; Titles: c1: Human machine interface for Lab ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system engineering testing of EPS c5: Relation of user-perceived response time to error measurement m1: The generation of random, binary, unordered trees m2: Theintersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey Typeset by FoilTEX 11
13 Hieraus ergibt sich die Term by Document Matrix: T/D c1 c2 c3 c4 c5 m1 m2 m3 m4 human interface computer user system response time EPS survey trees graphs minors Typeset by FoilTEX 12
14 MEDLARS-Kollektion Dokumente 1033 Terme 5831 Anfragen 30 Bool Fuzzy Vektor Typeset by FoilTEX 13
15 Boolesches Retrieval Boolesches Retrieval ist vermutlich das erste Retrieval-Modell, es wurde damals entwickelt um mit Hilfe von Schlitzlochkarten Retrieval durchzuführen. Mit dem Einsatz von Magnetbändern und der damit verbundenen geringen Speicherkapazität kam kein anderes Retrieval-System in Frage, da sofort mit Einlesen entschieden werden musste, ob das Dokument ausgedruckt werden sollte oder nicht. Bis heute hat dieses System bestand und wurde nur um einige wenige Funktionen erweitert. Beim Booleschen Retrieval sind die Dokumentenbeschreibungen D D : ungewichtete Indexierungen, d.h. : D D m = d m mit d mi ɛ 0, 1 für i = 1,..., n Typeset by FoilTEX 14
16 Die Fragebeschreibungen (Q D ) sind Boolesche Ausdrücke, die nach folgenden Regeln gebildet werden : q 1, q 2 ɛq D q 1 q 2 ɛq D q 1, q 2 ɛq D q 1 q 2 ɛq D qɛq D qɛq D Typeset by FoilTEX 15
17 Die Retrievalfunktion ϱ kann man analog zu diesen Regeln auch rekursiv definieren: t i ɛt ϱ(t i, d m = d mi ) ϱ(q 1 q 2, d m ) = min(ϱ(q 1, d m ), ϱ(q 2, d m ) ϱ(q 1 q 2, d m ) = max(ϱ(q 1, d m ), ϱ(q 2, d m ) ϱ( q, d m ) = 1 ϱ(q, d m ) Typeset by FoilTEX 16
18 Fuzzy-Retrieval Basierend auf der Fuzzy-Logik, Weiterentwicklung zum booleschen Retrieval. Es werden bei den Dokumentenbeschreibungen gewichtete Indexierungen zugelassen. d.h. d m ɛ[0, 1] Definitionen : Fragebeschreibung und Retrievalfunktion wie im booleschen Retrieval. Retrievalfunktion liefert durch gewichtete Indexierung : ϱ(qk D, d m )ɛ[0, 1] Ein Beispiel : T = t 1, t 2 q = t 1 t 2 d 1 = {0.4, 0.4}, d 2 = {0.39, 0.99} ϱ(q, d 1 ) = 0.4, ϱ(q, d 2 ) = 0.39 Bewertung : - Rangordnung der Dokumente - keine Fragetermwichtung - Retrievalqualität relativ schlecht im Vergleich zum Vektorraummodell Typeset by FoilTEX 17
19 Vektorraum-Modell Im VRM werden Dokumente und Fragen(bzw. deren Beschreibungen) als Punkte in einem Vektorraum aufgefasst, der durch die Terme der Datenbasis aufgespannt ist. Dokumentbeschreibungen : d D m = d m mit d mi ɛr für i = 1,..., n Fragebeschreibungen : q Q k = q k mit q ki ɛr für i = 1,..., n Retrievalfunktion : ϱ( q k, d m ) = q k d m Typeset by FoilTEX 18
20 Relevance-Feedback 1. Retrieval mit dem Fragevektor q k vom Benutzer. 2. Relevanzbeurteilung der obersten Dokumente der Rangordnung 3. Berechnung des verbesserten Fragevektors q k aufgrund der Feedback-Daten. 4. Retrieval mit dem verbesserten Vektor 5. Evtl. Wiederholung der Schritte 2 4 Iterationsvorschrift zur Berechnung des verbesserten Fragevektors: q k = q k + α 1 D R k d j ɛd R k d j β 1 D N k d j ɛd N k d j Der Verbindungsvektor z k = α 1 D R k d j ɛd R k d j β 1 D N k d j ɛd N k d j trennt unsere relevanten und nicht relevanten Dokumente optional. Typeset by FoilTEX 19
4. Nicht-Probabilistische Retrievalmodelle
4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations
MehrInformation Retrieval
Ein Überblick Norbert Fuhr Universität Duisburg-Essen Vorlesung Information Engineering SS 2013 UNIVERSITÄT D U I S B U R G E S S E N Inhaltsverzeichnis 1 Einführung 2 Repräsentation von Textinhalten 3
Mehr6. Probabilistische Retrievalmodelle. Norbert Fuhr
6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD
MehrGrundbegriffe des Information Retrieval
Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,
Mehr5 Nicht-Probabilistische Retrievalmodelle
Nicht-Probabilistische Retrievalmodelle 1 5 Nicht-Probabilistische Retrievalmodelle Boolesches Retrieval Fuzzy-Retrieval Vektorraummodell Clustering Nicht-Probabilistische Retrievalmodelle 2 5.1 Notationen
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrInformation Retrieval
Ein Kurzeinführung Norbert Fuhr Universität Duisburg-Essen Vorlesung Information Retrieval Einführung 1 Was ist Information Retrieval? 2 Definition IR 3 Syntax, Semantik und Pragmatik 4 Retrievalqualität
MehrInternet-Suchmaschinen Probabilistische Retrievalmodelle
Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.
MehrInhaltsverzeichnis. Information Retrieval. Anwendungsgebiet. Einführung. Ein Überblick. Einführung. Freitextsuche. Norbert Fuhr.
Inhaltsverzeichnis Information Retrieval Ein Überblick Norbert Fuhr Einführung Freitextsuche Universität Duisburg-Essen Vorlesung "Information Engineering" WS 2007/8 Retrievalmodelle Evaluierung UNIVERSITÄT
MehrThesaurus 1. Merkmale:
Thesaurus 1 Eine Dokumentationssprache ist eine Menge sprachlicher Ausdrücke, die, nach bestimmten Regeln angewendet, der Beschreibung von Dokumenten zum Zweck des Speicherns und einer gezielten Wiederauffindung
MehrRahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen.
Rahmenarchitektur für IR-Systeme Internet-Suchmaschinen Nicht-Prbabilistische Retrievalmdelle Infrmatins bedürfnis Frage Repräsentatin Evaluierung Frage Beschreibung Nrbert Fuhr Wissensrepräsentatin Vergleich
MehrÜbungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen
Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200
Mehr5. Probabilistische Retrievalmodelle
5. Probabilistische Retrievalmodelle 1 5. Probabilistische Retrievalmodelle Norbert Fuhr Notationen 5. Probabilistische Retrievalmodelle 3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D
MehrInformation Retrieval - Übersicht. Norbert Fuhr
Information Retrieval - Übersicht Norbert Fuhr 1 1. Einführung IR unterscheidet sich wesentlich zur Suche in klassischen Datenbanken IR beschäftigt sich mit Unsicherheit und Vagheit in Informationssystemen
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
MehrVom Suchen und Finden - Google und andere Ansätze
Vom Suchen und Finden - Google und andere Ansätze Norbert Fuhr Universität Duisburg Essen FB Ingenieurwissenschaften Abteilung Informatik 12. Mai 2005 Gliederung 1 Einführung 2 Grundlagen 3 Erweiterte
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrBücher und Artikel zum Thema
Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,
MehrMaterialsammlung zur Implementierung von Information Retrieval Systemen
Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,
MehrKapitel 2: Mathematische Grundlagen
[ Computeranimation ] Kapitel 2: Mathematische Grundlagen Prof. Dr. Stefan M. Grünvogel stefan.gruenvogel@fh-koeln.de Institut für Medien- und Phototechnik Fachhochschule Köln 2. Mathematische Grundlagen
MehrEinführung. Information Retrieval. Anwendungsgebiet. Was ist Information Retrieval? Was ist Information Retrieval? Ein Kurzeinführung.
Einführung Information Retrieval Ein Kurzeinführung Norbert Fuhr Universität Duisburg-Essen Vorlesung Information Retrieval Was ist Information Retrieval? Definition IR Syntax, Semantik und Pragmatik Retrievalqualität
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrVorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht
MehrEvaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06
Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen
MehrEvaluation von IR-Systemen
Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen
MehrT = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
MehrSuchmaschinen. Anwendung RN Semester 7. Christian Koczur
Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe
MehrKlassisches Information Retrieval Jan Schrader
Klassisches Information Retrieval 27.10.2011 Jan Schrader Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies
MehrInformation Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
MehrInformation Retrieval. Peter Kolb
Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation
MehrInhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis
Inhaltsverzeichnis Geleitwort Vorwort Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis Symbolverzeichnis i iü xi xiii xv xvii 1 Einleitung 1 1.1 Problemstellung 1 1.2 Zielsetzung der Arbeit
MehrKapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme
Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert
MehrDieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird.
Thomas Studer Relationale Datenbanken: Von den theoretischen Grundlagen zu Anwendungen mit PostgreSQL Springer, 2016 ISBN 978-3-662-46570-7 Dieser Foliensatz darf frei verwendet werden unter der Bedingung,
MehrKlassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)
Klassen von Retrieval-Modellen Boolesche und Vektorraum- Modelle Boolesche Modelle (Mengen-basiert) Erweitertes Boolesches Modell Vektorraummodelle (vector space) (statistisch-algebraischer Ansatz) Latente
MehrProbabilistische IR-Modelle
Kapitel 4 Probabilistische IR-Modelle 4.1 Einführung Ein wesentlicher Unterschied zwischen IR-Systemen und vielen anderen klassischen Informationssystemen besteht in der intrinsischen Unsicherheit des
MehrErweitertes boolsches Retrieval
Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,
MehrBoole'sches Modell <is web>
Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht
MehrInformation Retrieval und Question Answering
und Question Answering Kai Kugler 19. November 2009 Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem
MehrBoolesche- und Vektorraum- Modelle
Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle
MehrB E N U T Z E R D O K U M E N TA T I O N ( A L E P H I N O
B E N U T Z E R D O K U M E N TA T I O N ( A L E P H I N O 5. 0 ) Thesaurus Ex Libris Deutschland GmbH (2014) Version 5.0 Zuletzt aktualisiert: 21.07.2014 1 DEFINITION...3 2 ERFASSUNG VON THESAURUSBEGRIFFEN...3
MehrD-INFK Lineare Algebra HS 2017 Özlem Imamoglu Olga Sorkine-Hornung. Serie 11
D-INFK Lineare Algebra HS 2017 Özlem Imamoglu Olga Sorkine-Hornung Serie 11 1. Wir betrachten das überbestimmte Gleichungssystem Ax = y mit 1 1 1 1 A := 1 1 0 1 0 1, y := 2 3 0 0 1 4 Berechnen Sie die
MehrLineare Gleichungssysteme: eine Ergänzung
Lineare Gleichungssysteme: eine Ergänzung Ein lineares Gleichungssystem, bei dem alle Einträge auf der rechten Seite gleich sind heiÿt homogenes lineares Gleichungssystem: a x + a 2 x 2 +... + a n x n
MehrPraxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A
Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)
MehrMengen und Abbildungen
1 Mengen und bbildungen sind Hilfsmittel ( Sprache ) zur Formulierung von Sachverhalten; naive Vorstellung gemäß Georg Cantor (1845-1918) (Begründer der Mengenlehre). Definition 1.1 Eine Menge M ist eine
Mehr5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank
Page Rank Google versucht die Bedeutung von Seiten durch den sogenannten Page Rank zu ermitteln. A C Page Rank basiert auf der Verweisstruktur des Webs. Das Web wird als großer gerichteter Graph betrachtet.
MehrInformation Retrieval und Multimedia Datenbanken 1
Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung 12.05.06 Vektorraummodell Bekanntestes IR Modell Grundidee: Lineare Algebra Dokumente und Anfragen
MehrInternet-Suchmaschinen Skriptum zur Vorlesung im WS 12/13. Norbert Fuhr
Internet-Suchmaschinen Skriptum zur Vorlesung im WS 12/13 Norbert Fuhr 7. Januar 2013 Inhaltsverzeichnis 1 Einführung 4 1.1 Internet-Suche........................................... 4 1.1.1 Suchqualität........................................
MehrInformation Retrieval Zusammenfassung
Information Retrieval Zusammenfassung Daniel Bruder Oct/Nov 2012 Contents 1 IR 3 1.1 Brainstorming.................................. 3 1.1.1 Grundbegriffe.............................. 3 Verwandte Gebiete
MehrII. Grundlagen der Programmierung
II. Grundlagen der Programmierung II.1. Zahlenssteme und elementare Logik 1.1. Zahlenssteme 1.1.1. Ganze Zahlen Ganze Zahlen werden im Dezimalsstem als Folge von Ziffern 0, 1,..., 9 dargestellt, z.b. 123
MehrINFORMATION RETRIEVAL
INFORMATION RETRIEVAL Probabilistisches Modell Vortrag von David Wittum zum Hauptseminar Information Retrieval von Dr. Karin Haenelt Gehalten am 25.01.2010 ÜBERBLICK 1. Kurze Wiederholung: Berechnungsaufgaben
MehrLineare Gleichungssysteme
Kapitel 6 Lineare Gleichungssysteme 6. Gaußalgorithmus Aufgabe 6. : Untersuchen Sie die folgenden linearen Gleichungssysteme mit dem Gaußalgorithmus auf Lösbarkeit und bestimmen Sie jeweils die Lösungsmenge.
MehrLineare Transformationen und Determinanten. 10-E Ma 1 Lubov Vassilevskaya
Lineare Transformationen und Determinanten 10-E Ma 1 Lubov Vassilevskaya Lineare Transformation cc Definition: V und W sind zwei Vektorräume. Eine Funktion T nennt man eine lineare Transformation von V
MehrWissenschaftliches Arbeiten und Informationskompetenz in den Wirtschaftswissenschaften (2a)
Wissenschaftliches Arbeiten und Informationskompetenz in den Wirtschaftswissenschaften (2a) Schlüsselqualifikationen für Bachelor-Studierende (Ergänzungsbereich Modul E1) SoSe 2011 Alexander Holste / Schreibwerkstatt/Universitätsbibliothek
MehrProbabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist
Rückblick Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal
Mehrumweltmanagementinformationssysteme
umweltmanagementinformationssysteme Übung Sommersemester 2012 Arbeitsgruppe Wirtschaftsinformatik Managementinformationssysteme Arbeitsgruppe Wirtschaftsinformatik Managementinformationssysteme Urban,
MehrStemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig
Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus
Mehrumweltmanagementinformationssysteme
umweltmanagementinformationssysteme Übung 04 Sommersemester 2013 Arbeitsgruppe Wirtschaftsinformatik Managementinformationssysteme Folie 1 Agenda Organisatorisches Fragen zur Vorlesung Wiederholung der
MehrInternet-Suchmaschinen Evaluierung
Internet-Suchmaschinen Evaluierung Norbert Fuhr 1 / 83 Vorüberlegungen Warum evaluieren? Anforderungen an Evaluierungen Qualitätskriterien Vorüberlegungen Warum evaluieren? Perspektiven auf IR-Systeme
MehrZentralübung zur Vorlesung Diskrete Strukturen (Prof. Esparza)
WS 2013/14 Zentralübung zur Vorlesung Diskrete Strukturen (Prof. Esparza) Dr. Werner Meixner Fakultät für Informatik TU München http://www14.in.tum.de/lehre/2013ws/ds/uebung/ 30. Oktober 2013 ZÜ DS ZÜ
MehrThemenfeld Lexikalische Repräsentation
Sommersemester 2003 Institut für Germanistik I Vorlesung Computerphilologie Themenfeld Lexikalische Repräsentation Wie kann man Wörter und Beziehungen zwischen ihnen beschreiben und erheben? v.hahn, Uni
MehrRetrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)
Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des
MehrInformation Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
Mehr2 Evaluierung von Retrievalsystemen
2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...
Mehrumweltmanagementinformationssysteme
umweltmanagementinformationssysteme Übung 04 Sommersemester 2015 Arbeitsgruppe Wirtschaftsinformatik Managementinformationssysteme Folie 1 Agenda Organisatorisches Fragen zur Vorlesung Aufbereitung der
MehrSuchmaschinentechnologie
Modul: Studiengang: Bibliotheksinformatik Abschluss: Master of Science Modulverantwortliche/r: Sascha Szott & Frank Seeliger Semester: 2 Präsenzstunden: 50.0 Art der Lehrveranstaltung: Pflicht Dauer: 2
MehrDer Kern einer Matrix
Die elementaren Zeilenoperationen p. 1 Der Kern einer Matrix Multipliziert man eine Matrix mit den Spaltenvektoren s 1,..., s m von rechts mit einem Spaltenvektor v := (λ 1,..., λ m ) T, dann ist das Ergebnis
MehrLatent Semantisches Indexieren für kurze Texte
Latent Semantisches Indexieren für kurze Texte Wissenschaftliche Arbeit zur Erlangung des Grades Bachelor of Science in Information Engineering im Fachbereich Informatik und Informationswissenschaft der
Mehra 11 a 12 a 1(m 1) a 1m a n1 a n2 a n(m 1) a nm Matrizen Betrachten wir das nachfolgende Rechteckschema:
Matrizen Betrachten wir das nachfolgende Rechteckschema: a 12 a 1(m 1 a 1m a n1 a n2 a n(m 1 a nm Ein solches Schema nennt man (n m-matrix, da es aus n Zeilen und m Spalten besteht Jeder einzelne Eintrag
MehrTHIA - Übungsblatt 2.
THIA - Übungsblatt 2. Aufgabe 12 (Eine einfache Sprache). Endliche Ziffernfolgen, die mit einer 0 beginnen, auf die mindestens eine weitere Ziffer folgt, wobei nur die Ziffern 0,..., 7 vorkommen, sollen
MehrQuantencomputer: Einführung
Quantencomputer: Einführung Martin Lange Institut für Informatik Ludwig-Maximilians-Universität München Quantencomputer: Einführung p.1/29 Einleitung Quantencomputer: Einführung p.2/29 Geschichte Computer
MehrTheoretische Informatik II
Theoretische Informatik II Dr. Eva Richter / Holger Arnold Universität Potsdam, Theoretische Informatik, Sommersemester 2008 Übungsblatt 3 (Version 4) Abgabetermin: 13.5.2008, 12.00 Uhr Der λ-kalkül Da
MehrInformatik I (D-MAVT)
Informatik I (D-MAVT) Übungsstunde 2 simon.mayer@inf.ethz.ch Distributed Systems Group, ETH Zürich Ablauf Besprechung der Vorlesung Vorbesprechung Übung 2 Variablen + Scopes Zahlensysteme Bits&Bytes Datentypen
Mehr7 Integralrechnung für Funktionen einer Variablen
7 Integralrechnung für Funktionen einer Variablen In diesem Kapitel sei stets D R, und I R ein Intervall. 7. Das unbestimmte Integral (Stammfunktion) Es sei f : I R eine Funktion. Eine differenzierbare
MehrAutomatische Indexierung zwischen Forschung und Anwendung
Gerhard Lustig (Hg.) Automatische Indexierung zwischen Forschung und Anwendung,H,: :,... 1986 Georg Olms Verlag Hildesheim Zürich New York Gesellschaft für Linguistische Datenverarbeitung e. V. ix Inhalt
MehrFormale Sprachen und endliche Automaten
Formale Sprachen und endliche Automaten Formale Sprachen Definition: 1 (Alphabet) Ein Alphabet Σ ist eine endliche, nichtleere Menge von Zeichen oder Symbolen. Ein Wort über dem Alphabet Σ ist eine endliche
MehrHM I Tutorium 1. Lucas Kunz. 27. Oktober 2016
HM I Tutorium 1 Lucas Kunz 27. Oktober 2016 Inhaltsverzeichnis 1 Theorie 2 1.1 Logische Verknüpfungen............................ 2 1.2 Quantoren.................................... 3 1.3 Mengen und ihre
MehrVorlesung Suchmaschinen Semesterklausur Sommersemester 2016
Universität Augsburg, Institut für Informatik Sommersemester 2016 Prof. Dr. W. Kießling 12. Juli 2016 Dr. F. Wenzel, L. Rudenko Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Sommersemester 2016
MehrMathematik-Vorkurs für Informatiker Formale Sprachen 1
Christian Eisentraut & Julia Krämer www.vorkurs-mathematik-informatik.de Mathematik-Vorkurs für Informatiker Formale Sprachen 1 Aufgabe 1. (Wiederholung wichtiger Begriffe) Kategorie 1 Notieren Sie die
MehrInformation Retrieval Eine Einführung in das Indexieren
Seminar für Computerlinguistik Universität Zürich Sommersemester 2001 Seminar Semantikrepräsentation für Antwortextraktion Prof. Dr. M. Hess lic. phil. S.Clematide Information Retrieval Eine Einführung
MehrVektorräume. 1. v + w = w + v (Kommutativität der Vektoraddition)
Vektorräume In vielen physikalischen Betrachtungen treten Größen auf, die nicht nur durch ihren Zahlenwert charakterisiert werden, sondern auch durch ihre Richtung Man nennt sie vektorielle Größen im Gegensatz
Mehr3. Evaluierung. Norbert Fuhr
3. Evaluierung Norbert Fuhr Perspektiven auf IR-Systeme Benutzer Käufer Manager Hersteller Entwickler... Fragestellungen an die Evaluierung Was kann ich ändern, um die Qualität eines Systems zu verbessern?
Mehr5.4 Basis, Lineare Abhängigkeit
die allgemeine Lösung des homogenen Systems. Wieder ist 2 0 L i = L h + 0 1 Wir fassen noch einmal zusammen: Ein homogenes lineares Gleichungssystem A x = 0 mit m Gleichungen und n Unbekannten hat n Rang(A)
MehrProbeklausur Digitale Medien
Probeklausur Digitale Medien Wintersemester 2007 / 2008 LMU München LFE Medieninformatik Prof. H. Hußmann Dauer: 90 Minuten Zugelassene Hilfsmittel: Unterlagen zur Vorlesung und Übung Digitale Medien,
MehrInformatik I Information & Daten Repräsentation von Daten
Informatik I Information & Daten Repräsentation von Daten G. Zachmann Clausthal University, Germany zach@in.tu-clausthal.de Daten & Informationen Menschen sind an Informationen interessiert Computer verarbeiten
MehrSprachanalyse. Fachseminar WS 08/09 Dozent: Prof. Dr. Helmut Weber Referentin: Nadia Douiri
Sprachanalyse WS 08/09 Dozent: Prof. Dr. Helmut Weber Referentin: Inhalt 1. Formale Sprachen 2. Chomsky-Hierarchie 2 FORMALE SPRACHE 1. WAS IST EINE SPRACHE? 2. WIE BESCHREIBT MAN EINE SPRACHE? 3. WAS
MehrLineare Algebra und Numerische Mathematik für D-BAUG
R Käppeli L Herrmann W Wu Herbstsemester 26 Lineare Algebra und Numerische Mathematik für D-BAUG ETH Zürich D-MATH Beispiellösung für Serie 2 Aufgabe 2 Welche der folgenden Aussagen sind korrekt? (i) Jedes
MehrGrundlagen digitaler Systeme WS12
Grundlagen digitaler Systeme WS12 Binary Decision Diagrams Johann Blieberger 183.580, VU 2.0 Automation Systems Group E183-1 Institute of Computer Aided Automation Vienna University of Technology email:
MehrLösungsmenge L I = {x R 3x + 5 = 9} = L II = {x R 3x = 4} = L III = { }
Zur Einleitung: Lineare Gleichungssysteme Wir untersuchen zunächst mit Methoden, die Sie vermutlich aus der Schule kennen, explizit einige kleine lineare Gleichungssysteme. Das Gleichungssystem I wird
MehrReguläre Sprachen. R. Stiebe: Theoretische Informatik für ING-IF und Lehrer,
Reguläre Sprachen Reguläre Sprachen (Typ-3-Sprachen) haben große Bedeutung in Textverarbeitung und Programmierung (z.b. lexikalische Analyse) besitzen für viele Entscheidungsprobleme effiziente Algorithmen
MehrInformation-Retrieval: Evaluation
Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrAnwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke
Anwendungen der Hauptkomponentenanalyse Volker Tresp vertreten durch Florian Steinke 1 Dimensionsreduktion für Supervised Learning 2 Beispiel: Kaufentscheidung 3 Verbesserte Abstandsmaße durch Hauptkomponentenanalyse
Mehr