Multimedia Retrieval im WS 2011/2012
|
|
- Heidi Stieber
- vor 7 Jahren
- Abrufe
Transkript
1 Multimedia Retrieval im WS 2011/ Prinzipien des Information Retrieval Prof. Dr.-Ing. Marcin Grzegorzek Juniorprofessur für Mustererkennung Institut für Bildinformatik im Department ETI Fakultät IV der Universität Siegen 17. und 24. Oktober 2011
2 Inhalte und Termine 1. Einführung 1.1 Grundlegende Begriffe 1.2 Suche in einem MMDBS 1.3 MMDBMS-Anwendungen Prinzipien des Information Retrieval 2.2 Information-Retrieval-Modelle 2.3 Relevance Feedback von Retrieval-Systemen Nutzerprofile 2/52
3 Inhalte und Termine 3. Prinzipien des Multimedia Retrieval 3.1 Besonderheiten der Verwaltung und des Retrievals 3.2 Ablauf des Multimedia-Information-Retrievals 3.3 Daten eines Multimedia-Retrieval-Systems 3.4 Feature 3.5 Eignung verschiedener Retrieval-Modelle 3.6 Multimedia-Ähnlichkeitsmodell 4. Feature-Transformationsverfahren 4.1 Diskrete Fourier-Transformation 4.2 Diskrete Wavelet-Transformation 4.3 Karhunen-Loeve-Transformation 4.4 Latent Semantic Indexing und Singulärwertzerlegung 3/52
4 Inhalte und Termine 5. Distanzfunktionen 5.1 Eigenschaften und Klassifikation 5.2 Distanzfunktionen auf Punkten 5.3 Distanzfunktionen auf Binärdaten 5.4 Distanzfunktionen auf Sequenzen 5.5 Distanzfunktionen auf allgemeinen Mengen 6. Ähnlichkeitsmaße 6.1 Einführung 6.2 Distanz versus Ähnlichkeit 6.3 Grenzen von Ähnlichkeitsmaßen 6.4 Konkrete Ähnlichkeitsmaße 6.5 Aggregation von Ähnlichkeitswerten 6.6 Umwandlung von Distanzen in Ähnlichkeitswerte und Normierung 6.7 Partielle Ähnlichkeit 4/52
5 Inhalte und Termine 7. Effiziente Algorithmen und Datenstrukturen 7.1 Hochdimensionale Indexstrukturen 7.2 Algorithmen zur Aggregation von Ähnlichkeitswerten 8. Anfragebehandlung 8.1 Einführung 8.2 Konzepte der Anfragebehandlung 8.3 Datenbankmodell 8.4 Sprachen 9. Zusammenfassung 5/52
6 Überblick 2.2 Information-Retrieval-Modelle 2.3 Relevance Feedback von Retrieval-Systemen 2.5 Nutzerprofile 6/52
7 Überblick 2.2 Information-Retrieval-Modelle 2.3 Relevance Feedback von Retrieval-Systemen 2.5 Nutzerprofile 7/52
8 DB-, IR-, und MMDB-Systeme IR- und DB-Systeme verwalten Daten, unterscheiden sich jedoch erheblich im Zugriff auf die Daten. Datenbankanfrage ist scharf: select ISBN from Buch where Titel = Multimedia-Datenbanken IR-Anfrage ist in der Regel unscharf formuliert: Finde alle Text-Dokumente, die sich mit dem Thema Multimedia-Datenbanken beschäftigen. MMDB-Systeme kombinieren Konzepte von DB- und IR-Systemen. 8/52
9 Informationsbedarf in einem IR-System Der Informationsbedarf in einem IR-System kann unterschiedlich verstanden werden: als Dokument: Liefere alle Text-Dokumente, die ähnlich zum Text-Dokument #0821 sind als Anfrage: Datenbank and (Bild or Video) 9/52
10 Daten Retrieval versus Information Retrieval Merkmal Daten Retrieval Inf. Retrieval Information explizit implizit Ergebnisse exakt unscharf Anfrage einmalig iterativ verfeinernd Fehlertoleranz keine vorhanden Ergebniskollektion Menge Liste 10/52
11 Schritte des IR-Prozesses 11/52
12 Überblick 2.2 Information-Retrieval-Modelle 2.3 Relevance Feedback von Retrieval-Systemen 2.5 Nutzerprofile 12/52
13 Klassifikation der IR-Modelle Boolesches Modell Dokumente werden als Indexterme repräsentiert. Die Suche erfolgt über einfache Mengenoperationen. Die Anfragen lassen sich über boolesche Junktoren verknüpfen. Fuzzy-Modell Eine Erweiterung des booleschen Modells auf unscharfe Mengen. Vektorraummodell Jedes Dokument wird als ein Vektor aufgefasst. Eine Anfrage wird auch als Vektor in einem Vektorraum behandelt. Die Suche basiert auf Bestimmung von Vektorähnlichkeiten. 13/52
14 Boolesches Modell - Allgemeines Binäres Termgewicht Das Gewicht eines Terms bezogen auf ein Text-Dokument ist binär ( 1 - das Dokument beinhaltet den Term, 0 - das Dokument beinhaltet den Term nicht). Boolesche Junktoren In der Anfrage werden Terme durch boolesche Junktoren (and, or, not) kombiniert. Vergleichsfunktion Innerhalb der Vergleichsfunktion werden die durch die Anfrage spezifizierten Anfrageterme in den jeweiligen Dokumenten auf Enthaltensein getestet. 14/52
15 Boolesches Modell - Beispiel Terme: Indexvokabular = Dokumente: Dokument 1 : Dokument 2 : Dokument 3 : {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} {Sardinien, Strand, Ferienwohnung} {Korsika, Strand, Ferienwohnung} {Korsika, Gebirge} Ergebnisse: Korsika Ferienwohnung Ferienwohnung and Korsika Ferienwohnung or Korsika Ferienwohnung and not Korsika liefert {d2,d3} liefert {d1,d2} liefert {d2} liefert {d1,d2,d3} liefert {d1} 15/52
16 Boolesches Modell - Beispiel 16/52
17 Boolesches Modell - Weiteres but -Junktor Die Anfrage Ferienwohnung but Korsika liefert alle die Dokumente, die den Term Ferienwohnung aber nicht den Term Korsika enthalten. of -Konstrukt Die Anfrage 2 of (Korsika, Strand, Ferienwohnung) sucht nach allen Dokumenten, die mindestens zwei der drei vorgegebenen Terme enthalten. 17/52
18 Fuzzy-Modell, Allgemeines Das Fuzzy-Modell ist eine Erweiterung des booleschen Modells. Das Problem der zu scharfen Enthaltenseinsbedingung von Termen in Dokumenten wird behoben. Die Grundidee liegt in der Verwendung einer graduellen Zugehörigkeit von Dokumenten zu Termen. Es wird auf das Konzept einer Fuzzy-Menge zurückgegriffen. 18/52
19 Fuzzy-Modell, Definitionen Fuzzy-Menge Eine Fuzzy-Menge A = { u,µ A (u) } über ein Universum U ist durch eine Zugehörigkeitsfunktion µ A : U [0,1] charakterisiert, welche jedem Element u des Universums U einen Wert µ A (u) aus dem Intervall [0,1] zuordnet. Term als Fuzzy-Menge In unserem Retrieval-Szenario entspricht die Menge aller gespeicherten Dokumente dem Universum und ein Term einer Fuzzy-Menge. Fuzzy-Wert Fuzzy-Wert µ t (d 1 ) des Dokuments d 1 bezüglich des Terms t drückt aus, wie stark der Term das Dokument charakterisiert. 19/52
20 Fuzzy-Modell, Definitionen Mengendurchschnitt Der Mengendurchschnitt A B (Konjunktion) wird durch die Min-Funktion realisiert µ A B (u) = min(µ A (u),µ B (u)) Mengenvereinigung Die Mengenvereinigung A B (Disjunktion) wird durch die Max-Funktion realisiert µ A B (u) = max(µ A (u),µ B (u)) Komplementbildung Die Komplementbildung A (Negation) bezüglich des Universums entspricht einer Subtraktion von 1 µ A (u) = 1 µ A (u) 20/52
21 Fuzzy-Modell, Beispiel Anfrage µ d 1 d 2 d 3 µ Korsika 0,1 0,6 1 µ Strand 0,3 0,2 0,8 1 µ Korsika Strand 2 µ Korsika Strand 3 µ Korsika 21/52
22 Fuzzy-Modell, Beispiel Anfrage µ d 1 d 2 d 3 µ Korsika 0,1 0,6 1 µ Strand 0,3 0,2 0,8 1 µ Korsika Strand 0,1 0,2 0,8 2 µ Korsika Strand 0,3 0,6 1 3 µ Korsika 0,9 0,4 0 22/52
23 Fuzzy-Modell, Term-zu-Term-Korrelationsmatrix c i,j in Zeile t i und Spalte t j drückt aus, wie stark die Terme t i und t j in den Dokumenten der Datenbank korrelieren, also in den Dokumenten gemeinsam auftreten c i,j = n i,j n i +n j n i,j Zugehörigkeitswert eines Dokuments d j zu einem Term t j µ ti (d j ) = 1 t k d j (1 c i,k ) 23/52
24 Vektorraummodell - Allgemeines Die Dokumente werden wie Vektoren eines Vektorraums aufgefasst. Vektoren aus Termgewichten oder Merkmalswerten Anfrage als Vektor Ähnlichkeits- und Distanzmaße 24/52
25 Vektorraummodell - Beispiel Dokumente: Dimension d 1 d 2 d 3 Korsika 0,1 0,6 1 Strand 0,3 0,2 0.8 Anfragen: Dimension q 1 q 2 q 3 Korsika Strand /52
26 Vektorraummodell - Beispiel 26/52
27 Vektorraummodell - Beispiel Ähnlichkeitswerte nach Kosinusmaß sim cos d 1 d 2 d 3 q 1 0,3162 0,9487 0,7809 q 2 0,9487 0,3162 0,6247 q 3 0,8944 0,8944 0, /52
28 Vektorraummodell - Beispiel cosα = 0,9487 cosβ = 0,6247 cosγ = 0, /52
29 Vektorraummodell - Beispiel Unähnlichkeitswerte anhand Euklidischer Distanz dissim L2 d 1 d 2 d 3 q 1 0,9487 0,4472 0,8 q 2 0, ,0198 q 3 1,1402 0,8944 0,2 29/52
30 Vektorraummodell - Beispiel l 1 = 0,7071 l 2 = 1 l 3 = 1, /52
31 Vektorraummodell - Beispiel Kosinusmaß und Euklidische Distanz erzeugen unterschiedliche Ergebnisse Kosinusmaß erzeugt d1,d 3,d 2 Euklidische Distanz erzeugt d1,d 2,d 3 Wahl der geeigneten Ähnlichkeitsfunktion abhängig von subjektivem Ähnlichkeitsempfinden Anwendungsszenario 31/52
32 Vektorraummodell - Zusammenfassung Vektorraummodell ist sehr verbreitet. VR-Modell setzt feste Anzahl von nummerischen Merkmalswerten pro Dokument voraus. Probleme: Merkmale als orthogonale Dimensionen aufgefasst (unrealistisch) Problem bei hoher Anzahl von Merkmalswerten bzgl. Effektivität und Effizienz Anfrage ist Vektor, also keine Junktoren 32/52
33 Überblick 2.2 Information-Retrieval-Modelle 2.3 Relevance Feedback von Retrieval-Systemen 2.5 Nutzerprofile 33/52
34 Vereinfachter IR-Prozess 34/52
35 RF - Beispiel 35/52
36 RF - Anfragemodifikation im Vektorraummodell Verschiebung des Anfragevektors in Richtung der als relevant bewerteten Dokumente weg von als irrelevant bewerteten Dokumenten Anfrage: q alt, relevant (irrelevant) bewertete Dokumente: D r (D i ) α und β gewichten Einfluss relevanter und irrelevanter Dokumente q neu = q alt + α D r d r β D i d r D r d i D i d i 36/52
37 RF - Beispiel zur Anfragemodifikation 37/52
38 Überblick 2.2 Information-Retrieval-Modelle 2.3 Relevance Feedback von Retrieval-Systemen 2.5 Nutzerprofile 38/52
39 Bewertung - Allgemeines Bewertung (Qualitätsvergleich) verschiedener Retrieval-Systeme Quantitative Maße vonnöten 39/52
40 Bewertung - Precision, Recall und Fallout Zwei verschiedene Fehlentscheidungen false alarms (fa ) bezeichnet diejenigen Dokumente, die vom Retrieval-System irrtümlicherweise als relevant zurückgeliefert wurden (auch: false positives) false dismissals (fd ) sind Dokumente, die fälschlicherweise vom Retrieval-System als irrelevant eingestuft wurden (auch: false negatives) Zwei korrekte Entscheidungen correct alarms (ca ) correct dismissals (cd ) f a, f d, c a, c d stehen für entsprechende Dokumentanzahlen bzgl. einer Anfrage. 40/52
41 Bewertung - Precision, Recall and Fallout 41/52
42 Bewertung - Precision, Recall and Fallout 42/52
43 Bewertung - Precision Precision P Wie viele (als Verhältnis) Ergebnisdokumente sind tatsächlich relevant? P = c a c a +f a P [0,1] 43/52
44 Bewertung - Recall Recall R Wie viele (als Verhältnis) tatsächlich relevante Dokumente erscheinen im Ergebnis? R = c a c a +f d R [0,1] 44/52
45 Bewertung - Fallout Fallout F Verhältnis falsch gefundener zur Gesamtzahl irrelevanter Dokumente F = f a f a +c d F [0,1] 45/52
46 Bewertung - Precision, Recall und Fallout Precision, Recall und Fallout sind definiert bzgl. einer Anfrage Es ist besser, mehrere Anfragen zu betrachten und entsprechende Durchschnittswerte zu berechnen. 46/52
47 Bewertung - Precision, Recall and Fallout 47/52
48 Überblick 2.2 Information-Retrieval-Modelle 2.3 Relevance Feedback von Retrieval-Systemen 2.5 Nutzerprofile 48/52
49 Nutzerprofile - Allgemeines Bis jetzt keine Unterscheidung von Anwender und Anwendergruppen Verhalten bzw. Suchbedarf verschiedener Nutzer differiert oft Idee: Subjektivität wird als Nutzerprofil modelliert und bei Suche berücksichtigt 49/52
50 Nutzerprofile - Retrieval mit Profilen Nachfiltern Filterung auf Anfrageergebnis hoher Berechnungsaufwand durch u. U. großem Zwischenergebnis reduzieren von nur false alarms Vorfiltern Nutzerprofil beeinflusst Retrieval-Prozess direkt Reduzierung von false alarms und false dismissals 50/52
51 Nutzerprofile - Nachfiltern 51/52
52 Nutzerprofile - Vorfiltern 52/52
Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.
Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:
MehrBoole'sches Modell <is web>
Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht
Mehr<is web> Information Systems & Semantic Web
Information Systems University of Koblenz Landau, Germany 3 Prinzipien des Information Retrieval Einführung Information-Retrieval-Modelle Relevance Feedback Bewertung von Retrieval-Systemen Nutzerprofile
Mehr<is web> Information Systems & Semantic Web University of Koblenz Landau, Germany
Information Systems University of Koblenz Landau, Germany Information Retrieval Hinweise: 3 Prinzipien des Information Retrieval Andreas Henrich Information Retrieval 1 Grundlagen, Modelle und Anwendungen
MehrÜbungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen
Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200
MehrMultimedia-Datenbanken im SS 2010 Einführung in MMDB
Multimedia-Datenbanken im SS 2010 Einführung in MMDB Dr.-Ing. Marcin Grzegorzek 27.04.2010 Ähnlichkeitssuche in Multimedia-Datenbanken 2/ 28 Inhalte und Termine 1. Einführung in MMDB 1.1 Grundlegende Begriffe
MehrBewertung von Ergebnisdokumenten Auswertung von Bewertungen
3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung von Bewertungen staab@uni-koblenz.de 1 Vereinfachter IR-Prozess staab@uni-koblenz.de 2 Motivation erstes Ergebnis oft nicht zufriedenstellend
MehrInformation Retrieval. 3 Prinzipien des Information Retrieval. 3.1 Einführung. Historische Entwicklung von Information-Retrieval-Systemen
3 Prinzipien des Information Retrieval Einführung Information-Retrieval-Modelle Relevance Feedback Bewertung von Retrieval-Systemen Nutzerprofile Literaturempfehlungen Information Retrieval notwendig zur
MehrMultimedia-Datenbanken im SS 2010 Ähnlichkeitsmaße II
Multimedia-Datenbanken im SS 2010 Ähnlichkeitsmaße II Dr.-Ing. Marcin Grzegorzek 22.06.2010 Inhalte und Termine 1. Einführung in MMDB 1.1 Grundlegende Begriffe 1.2 Suche in einem MMDBS 1.3 MMDBMS-Anwendungen
MehrMultimedia-Datenbanken im SS 2010 Effiziente Algorithmen und Datenstrukturen II
Multimedia-Datenbanken im SS 2010 Effiziente und Datenstrukturen II Dr.-Ing. Marcin Grzegorzek 05.07.2010 Inhalte und Termine 1. Einführung in MMDB 1.1 Grundlegende Begriffe 1.2 Suche in einem MMDBS 1.3
Mehr3 Prinzipien des Information Retrieval
3 Prinzipien des Information Retrieval Einführung Information-Retrieval-Modelle Relevance Feedback Bewertung von Retrieval-Systemen Nutzerprofile Literaturempfehlungen Information Retrieval notwendig zur
MehrErweitertes boolsches Retrieval
Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,
MehrInformation Retrieval
Information Retrieval Bisher: Datenbankabfrage mit Hilfe von SQL in relationalen Datenbanken. Die Informationen liegen geordnet in Tabellen -> exakte Ergebnisse Neu: Die Informationen liegen in Datensammlungen
MehrT = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
Mehr2 Volltext-Suchmaschinen
2 Volltext-Suchmaschinen Volltext-Suchmaschinen werden vor allem für die Suche im Internet benutzt, jedoch gibt es auch Erweiterungen (Data Cartridge, Oracle) um Volltextsuche bei SQL-Suchmaschinen wie
MehrInformation Retrieval und Multimedia Datenbanken 1
Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung 28.04.06 Multimedia-Datenbanken Persistente Speicherung von Mediendaten, z.b. Text-Dokumente Vektorgraphik,
MehrInformation Retrieval und Multimedia Datenbanken 1
Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung 12.05.06 Vektorraummodell Bekanntestes IR Modell Grundidee: Lineare Algebra Dokumente und Anfragen
MehrMultimedia-Datenbanken. Ingo Schmitt Vorlesung im SS 2006
Multimedia-Datenbanken Ingo Schmitt Vorlesung im SS 2006 Inhaltsverzeichnis 1 Einleitung und Begriffe 3 1.1 Grundlegende Datenbankbegriffe................................ 3 1.2 Aufgaben eines DBMS......................................
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrWarum ist die Verwendung von Ähnlichkeitsmaßen generell problematisch? Problematik beim Messen von Ähnlichkeit mittels Distanzmaß.
Warum ist die Verwendung von Ähnlichkeitsmaßen generell problematisch? Problematik beim Messen von Ähnlichkeit mittels Distanzmaß. Distanz und Ähnlichkeit: Distanzfunktionen Einleitung Distanzfunktionen
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrInformation Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
MehrÜbungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen
Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen Übung: Dipl.-Inf. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 31.0.2010
Mehr3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.
3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen
MehrInformation Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrÜbung nur jede 2. Woche (mit Ausnahmen) Ausgabe Übungszettel jeweils am Montag (01.07.) steht aber noch nicht fest
Information Systems University of Koblenz Landau, Germany Allgemeines Übung nur jede 2. Woche (mit Ausnahmen) dafür aber 90 Min. Ausgabe Übungszettel jeweils am Montag Übung Multimediadatenbanken Abgabe
MehrRetrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)
Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des
MehrKlassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)
Klassen von Retrieval-Modellen Boolesche und Vektorraum- Modelle Boolesche Modelle (Mengen-basiert) Erweitertes Boolesches Modell Vektorraummodelle (vector space) (statistisch-algebraischer Ansatz) Latente
MehrBoolesche- und Vektorraum- Modelle
Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle
Mehr9. Vorlesung Lineare Algebra, SVD und LSI
9. Vorlesung Lineare Algebra, SVD und LSI Grundlagen lineare Algebra Vektornorm, Matrixnorm Eigenvektoren und Werte Lineare Unabhängigkeit, Orthogonale Matrizen SVD, Singulärwerte und Matrixzerlegung LSI:Latent
MehrInformation Retrieval und Question Answering
und Question Answering Kai Kugler 19. November 2009 Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem
MehrInformation Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik
Rückblick Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Präzision und Ausbeute als elementare Gütemaße Zerlegung und Normalisierung
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
MehrProbabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist
Rückblick Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal
MehrLDA-based Document Model for Adhoc-Retrieval
Martin Luther Universität Halle-Wittenberg 30. März 2007 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter
MehrSuche in Multimedia-Datenbanken
Suche in Multimedia-Datenbanken Ingo Schmitt 20. April 2005 Gliederung 1. Motivation 2. Ähnlichkeitssuche in einem MMDBS 3. Semantische Lücke 4. Ähnlichkeitsanfragesprachen 5. Effiziente Ergebnisberechnung
Mehr4 Multimedia Information Retrieval
1 4 Multimedia Information Retrieval 1.Einführung 2.Ablauf des Multimedia Information Retrievals 3.Daten eines Multimedia-Retrieval-Systems 4.Feature 5.Eignung verschiedener Retrieval-Systeme 2 4.1 Einführung
Mehr4 Multimedia Information Retrieval. 4.1 Einführung. Besonderheiten der Verwaltung und des Retrievals von Multimedia-Daten
4 Multimedia Information Retrieval 1 4.1 Einführung 2 1.Einführung 2.Ablauf des Multimedia Information Retrievals 3.Daten eines Multimedia-Retrieval-Systems 4.Feature 5.Eignung verschiedener Retrieval-Systeme
MehrEinführung in die Informatik I
Einführung in die Informatik I Kapitel I.5: Verzweigungen Prof. Dr.-Ing. Marcin Grzegorzek Juniorprofessur für Mustererkennung im Institut für Bildinformatik Department Elektrotechnik und Informatik Fakultät
MehrHS Information Retrieval
HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:
MehrLatent Semantic Indexing: Einführung und Experiment
Latent Semantic Indexing: Einführung und Experiment Jonathan Geiger, Felix Hieber HS: Information Retrieval Dr. Haenelt 12.01.2009 WS 08/09 Motivation Grundsätzlich stecken zwei Ideen hinter, eine praktischer
MehrVorlesung Suchmaschinen Semesterklausur Sommersemester 2016
Universität Augsburg, Institut für Informatik Sommersemester 2016 Prof. Dr. W. Kießling 12. Juli 2016 Dr. F. Wenzel, L. Rudenko Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Sommersemester 2016
MehrRecommender Systeme mit Collaborative Filtering
Fakultät für Informatik Technische Universität München Email: rene.romen@tum.de 6. Juni 2017 Recommender Systeme Definition Ziel eines Recommender Systems ist es Benutzern Items vorzuschlagen die diesem
MehrKlassisches Information Retrieval Jan Schrader
Klassisches Information Retrieval 27.10.2011 Jan Schrader Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies
Mehr6. Probabilistische Retrievalmodelle. Norbert Fuhr
6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD
MehrInformation Retrieval. Peter Kolb
Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation
MehrVorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht
Mehr2 Evaluierung von Retrievalsystemen
2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...
MehrVolltextsuche und Text Mining
Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval
MehrKapitel L:IV. IV. Nichtklassische Logiken. Fuzzy-Mengen Modifizierer für Fuzzy-Mengen Operationen auf Fuzzy-Mengen Fuzzy-Inferenz Defuzzifizierung
Kapitel L:IV IV. Nichtklassische Logiken Fuzzy-Mengen Modifizierer für Fuzzy-Mengen Operationen auf Fuzzy-Mengen Fuzzy-Inferenz Defuzzifizierung L:IV-45 Nonclassical Logics LETTMANN/STEIN 1998-2013 Aussagenlogik
MehrNachteile Boolesches Retrieval
Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrSuchmaschinen. Anwendung RN Semester 7. Christian Koczur
Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe
MehrVektorräume. Stefan Ruzika. 24. April Mathematisches Institut Universität Koblenz-Landau Campus Koblenz
Stefan Ruzika Mathematisches Institut Universität Koblenz-Landau Campus Koblenz 24. April 2016 Stefan Ruzika 3: Vektorräume 24. April 2016 1 / 20 Gliederung 1 Schulstoff 2 Körper 3 Vektorräume Erinnerung:
MehrEinführung in die Theoretische Informatik
Einführung in die Theoretische Informatik Woche 4 Harald Zankl Institut für Informatik @ UIBK Wintersemester 2014/2015 Zusammenfassung Zusammenfassung der letzten LV Modus Ponens A B B A MP Axiome für
MehrGrundbegriffe des Information Retrieval
Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,
Mehr42 Orthogonalität Motivation Definition: Orthogonalität Beispiel
4 Orthogonalität 4. Motivation Im euklidischen Raum ist das euklidische Produkt zweier Vektoren u, v IR n gleich, wenn die Vektoren orthogonal zueinander sind. Für beliebige Vektoren lässt sich sogar der
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
MehrTexttechnologien: Latent Semantic Indexing
Texttechnologien: Latent Semantic Indexing Inhaltsbasierte Suche in P2P-Netzen Texttechnologien 1 Inhaltsbasierte Suche in P2P-Netzen 1 Überblick Motivation Verfahren Eigenwertzerlegungen Singulärwertzerlegungen
MehrUniversität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme
Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar
MehrDokumenten-Clustering. Norbert Fuhr
Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und
MehrLineare Algebra: Determinanten und Eigenwerte
: und Eigenwerte 16. Dezember 2011 der Ordnung 2 I Im Folgenden: quadratische Matrizen Sei ( a b A = c d eine 2 2-Matrix. Die Determinante D(A (bzw. det(a oder Det(A von A ist gleich ad bc. Det(A = a b
MehrReduced-Rank Least Squares Modelle
16.12.2008 Wiederholung Gegeben: Matrix A m n Paar Rechter Eigenvektor x, Eigenwert λ: A x = λ x mit x R n \ 0, λ N Paar Linker Eigenvektor y, Eigenwert λ: y T A = λ y T Singulärwertzerlegung (SVD): A
MehrWas bisher geschah. Aufgaben: Diagnose, Entscheidungsunterstützung Aufbau Komponenten und Funktion
Was bisher geschah Daten, Information, Wissen explizites und implizites Wissen Wissensrepräsentation und -verarbeitung: Wissensbasis Kontextwissen Problemdarstellung fallspezifisches Wissen repräsentiert
MehrBachelorverteidigung Marco Franke
Bachelorverteidigung Java EE Webservice basiert auf RESTlet, JaxB und JPA/Hibernate zur Bilderkennung mit Hilfe der SURF-Merkmalsextraktion Verantwortlicher Professor: Prof. Dr. rer. nat. Klaus Hering
Mehr1 Information Retrieval Grundlagen
1. Übung zur Vorlesung Internet-Suchmaschinen im Wintersemester 2007/2008 mit Lösungsvorschlägen Dr. Andreas Hotho, Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 01. November 2007 1 Information Retrieval
Mehr6 Distanzfunktionen. Quadratische Pseudo. 1. Eigenschaften und Klassifikation
6 Distanzfunktionen 1. Eigenschaften und Klassifikation 2. Distanzfunktionen auf Punkten Minkowski Distanzfunktion L m Gewichtete Minkowski Distanzfunktion L m w Quadratische Distanzfunktion d q Quadratische
Mehr... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
MehrProjektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten
Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich
MehrKlausur zur Vorlesung Lineare Algebra II, SoSe 2016,
Klausur zur Vorlesung Lineare Algebra II, SoSe 6, 6.7.6 Vokabelbuch In diesem Teil soll getestet werden, inwieweit Sie in der Lage sind, wichtige Definitionen und Sätze aus der Vorlesung korrekt zu formulieren
MehrEvaluation von IR-Systemen
Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen
MehrAnwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke
Anwendungen der Hauptkomponentenanalyse Volker Tresp vertreten durch Florian Steinke 1 Dimensionsreduktion für Supervised Learning 2 Beispiel: Kaufentscheidung 3 Verbesserte Abstandsmaße durch Hauptkomponentenanalyse
MehrVektoren und Matrizen
Universität Basel Wirtschaftswissenschaftliches Zentrum Vektoren und Matrizen Dr. Thomas Zehrt Inhalt: 1. Vektoren (a) Einführung (b) Linearkombinationen (c) Länge eines Vektors (d) Skalarprodukt (e) Geraden
Mehr4. Nicht-Probabilistische Retrievalmodelle
4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations
MehrTECHNISCHE UNIVERSITÄT MÜNCHEN. Lineare Algebra 1 WS 2006/07 Lösungen Blatt 13/ Probeklausur. Lösungen zur. Zentrum Mathematik
TECHNISCHE UNIVERSITÄT MÜNCHEN Zentrum Mathematik Prof. Dr. Friedrich Roesler Ralf Franken, PhD Max Lein Lineare Algebra 1 WS 26/7 en Blatt 13/2 29.1.27 en zur Probeklausur Aufgabe 1 (ca. 6 Punkte) Sei
Mehr7.3 Unitäre Operatoren
Wir können jeden Operator T wie folgt schreiben: Dabei gilt T = 1 2 (T + T ) + i( 1 2 i (T T )) (T + T ) = T + T sowie ( 1 2 i (T T )) = 1 2 i (T T) = 1 2 i (T T ). Wir können T also in zwei lineare Operatoren
MehrEinführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr
Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen
MehrLogik. Logik. Vorkurs Informatik Theoretischer Teil WS 2013/ September Vorkurs Informatik - Theorie - WS2013/14
Logik Logik Vorkurs Informatik Theoretischer Teil WS 2013/14 30. September 2013 Logik > Logik > logische Aussagen Logik Logik > Logik > logische Aussagen Motivation Logik spielt in der Informatik eine
MehrStephan Filipczyk. Relevance Feedback. Seminar Bridging the Semantic Gap
Stephan Filipczyk Relevance Feedback Seminar Bridging the Semantic Gap Übersicht Motivation Komponenten und Funktionsweise Ausprägungen Voraussetzungen und Herausforderungen Fragen Seminar "Bridging the
Mehr1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3
Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrKapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme
Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert
MehrUsing Sets of Feature Vectors for Similarity Search on Voxelized CAD Data
Diplomarbeit Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Stefan Brecheisen Aufgabensteller: Betreuer: Dank an: Prof. Dr. Hans-Peter Kriegel Martin Pfeifle Peer Kröger, Matthias
MehrMinimalpolynome und Implikanten
Kapitel 3 Minimalpolynome und Implikanten Wir haben bisher gezeigt, daß jede Boolesche Funktion durch einfache Grundfunktionen dargestellt werden kann. Dabei können jedoch sehr lange Ausdrücke enstehen,
Mehr1 Boolesches Retrieval (2)
2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des
MehrVorlesung Diskrete Strukturen Abbildungen
Vorlesung Diskrete Strukturen Abbildungen Bernhard Ganter WS 2009/10 Hashfunktionen Wenn eine Datenbank Millionen von Dokumenten enthält und immer neue dazu kommen, stellt sich folgendes Problem: Bei neuen
MehrBeschreibungslogik Kapitel 7: ABoxen und Anfragebeantwortung
Beschreibungslogik Kapitel 7: ABoxen und Anfragebeantwortung Sommersemester 2017 Thomas Schneider AG Theorie der künstlichen Intelligenz (TdKI) http://tinyurl.com/ss17-bl Beschreibungslogik SoSe 2017 7
MehrVektorräume. 1. v + w = w + v (Kommutativität der Vektoraddition)
Vektorräume In vielen physikalischen Betrachtungen treten Größen auf, die nicht nur durch ihren Zahlenwert charakterisiert werden, sondern auch durch ihre Richtung Man nennt sie vektorielle Größen im Gegensatz
MehrHÖHERE MATHEMATIK I FÜR MW UND CIW Übungsblatt 5
PROF DR-ING RAINER CALLIES DR THOMAS STOLTE DIPL-TECH MATH KATHRIN RUF DIPL-TECH MATH KARIN TICHMANN WS / HÖHERE MATHEMATIK I FÜR MW UND CIW Übungsblatt Zentralübung Z Bezüglich eines kartesischen Koordinatensystems
MehrAnwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
MehrStrukturierte Extraktion von Text aus PDF. Präsentation der Masterarbeit von Fabian Schillinger
Strukturierte Extraktion von Text aus PDF Präsentation der Masterarbeit von Fabian Schillinger Übersicht Motivation Probleme bei der Textextraktion Ablauf des entwickelten Systems Ergebnisse Präsentation
MehrEuklidische und unitäre Vektorräume
Kapitel 7 Euklidische und unitäre Vektorräume In diesem Abschnitt ist der Körper K stets R oder C. 7.1 Definitionen, Orthonormalbasen Definition 7.1.1 Sei K = R oder C, und sei V ein K-Vektorraum. Ein
MehrVorlesung Datenbanken II SS 2006
Vorlesung Datenbanken II SS 2006 1 Vorlesung Datenbanken II SS 2006 Sven Wachsmuth, Technische Fakultät, AG Angewandte Informatik Vorlesung Datenbanken II SS 2006 2 Suche in Bilddatenbanken Verschlagwortete
MehrEinführung in die Informatik I Kapitel II.1: Suchen
1 Einführung in die Informatik I Kapitel II.1: Suchen Prof. Dr.-Ing. Marcin Grzegorzek Juniorprofessur für Mustererkennung im Institut für Bildinformatik Department Elektrotechnik und Informatik Fakultät
MehrEvaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06
Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen
MehrEinführung in die Informatik I Kapitel II.3: Sortieren
1 Einführung in die Informatik I Kapitel II.3: Sortieren Prof. Dr.-Ing. Marcin Grzegorzek Juniorprofessur für Mustererkennung im Institut für Bildinformatik Department Elektrotechnik und Informatik Fakultät
Mehr