Information Retrieval und Multimedia Datenbanken 1

Größe: px
Ab Seite anzeigen:

Download "Information Retrieval und Multimedia Datenbanken 1"

Transkript

1 Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung

2 Vektorraummodell Bekanntestes IR Modell Grundidee: Lineare Algebra Dokumente und Anfragen sind Punkte in einem (orthonormalen) Vektorraum, der von den Termen des Grundvokabulars aufgespannt wird Ähnliche Vektoren kennzeichnen ähnliche Dokumente

3 Vektorraummodell Anfragen Punkte im Vektorraum ( virtuelle Dokumente ) Abstandsmessung von Anfrage und Dokumenten durch geeignete Distanzmaße Beliebige Termgewichtungen und zudem experimentell den vorigen Modellen überlegen Entwickelt für das SMART Retrievalsystem (G. Salton, 1971)

4 Vektorraummodell Woher kommen die Dokumentgewichte? Grundsätzlich ist jede Gewichtung möglich Hauptsächlich zwei verschiedene Ansätze Coordination Level Match TFxIDF CLM ist einfacher, aber TFxIDF liefert in der Regel bessere Ergebnisse

5 Vektorraummodell Coordination Level Match Nur binäre Dokument- und Anfragegewichte Dokumentbeschreibungen sind damit analog zum Booleschen Modell Ähnlichkeit wird aber nicht durch Boolesche Junktoren, sondern durch Skalarprodukte bestimmt CLM zählt wie viele der Anfrageterme in jedem Dokument vorkommen

6 Vektorraummodell Coordination Level Match Im Kontrast zum Booleschen Modell wird eine Ähnlichkeitssuche ermöglicht Beispiel Vokabular {A,B,C}, Anfrage: Q = A oder B := (1,1,0) D 1 A B D 2 C B D 3 A Boolsches Modell mit or : alles gleichwertige Treffer VR Modell mit CLM: D1 besser als D2, D3

7 Vektorraummodell TFxIDF Zusammengesetzt aus Term Frequency und Inverted Document Frequency Term Frequency bewertet wie häufig ein Term in einem Dokument vorkommt Document Frequency bewertet in wie vielen verschiedenen Dokumenten ein Term vorkommt Damit bewertet TFxIDF für jedes Dokument die relative Termrelevanz normalisiert mit der Diskriminierungskraft des Terms bzgl. der Kollektion

8 Vektorraummodell (normalized) Term Frequency ntf i = tf mi tf mi (l m /al) tf mi = # Vorkommen von Term i in Dokument d m l m = Dokumentlänge von d m al = durchschnittliche Dokumentlänge

9 Vektorraummodell Inverted Document Frequency idf i = log ( D /n i ) D + 1 D = Menge der Dokumente in der Kollektion n i = # Dokumente die Term i enthalten

10 Vektorraummodell TFxIDF Termgewichte für Term i und Dokument d m w mi = ntf i * idf i Ein Dokument ist also umso relevanter, je häufiger die Anfrageterme im Dokument vorkommen und je diskriminierender diese Terme für die Kollektion sind

11 Vektorraummodell Vektorraummodell vs. Booleschem und Fuzzy Modell in durchschnittlichen Precision Werten bei fixiertem Recall (Salton et al., 1983)

12 Vektorraummodell Vorteile Einfach und anschauliches Modell Leichte Anfragestellung bringt hohe Benutzerfreundlichkeit Graduelle Ähnlichkeitsunterschiede Viele verschiedene Ähnlichkeits-/Distanzmaße Direkt auf neuen Kollektionen anwendbar Sehr gute Retrievalqualität Möglichkeit zum Relevance Feedback

13 Vektorraummodell Nachteile Benutzt sehr viele Heuristiken, die nicht für jede Kollektion übertragbar sein müssen Z.B. Dokumente mit ähnlichen Termen sind auch ähnlich relevant Feststehende Gewichte erlauben keine einfachen benutzerbezogenen Verschiebungen Sehr hochdimensionale Vektorräume

14 Dokumenten-Clustering Gänzlich anderes Retrieval-Modell Keine explizite Anfrage, sondern Anfrage durch Beispieldokument Ähnlichkeit von Dokumenten wird genutzt, um von einem relevanten zu anderen (potentiell) relevanten Dokumenten zu kommen Cluster-Hypothese Ähnlichkeit der (ir-)relevanten Dokumente untereinander ist größer, als die zwischen zufällig ausgewählten Teilmengen

15 Dokumenten-Clustering Cluster-Hypothese wurde experimentell nachgewiesen Grundidee: Beim Aufbau der Kollektion sollen Cluster unabhängig von Anfragen bereits vorberechnet werden: Lege ein Ähnlichkeitsmaß fest Berechne Ähnlichkeitsmatrix für alle Dokumentpaare Berechne die Cluster Speichere Cluster physikalisch zusammen ab

16 Dokumenten-Clustering Berechnung der Cluster Agglomeratives Clustering benutzt einen vorgegebenen Schwellwert zur Entscheidung der Ähnlichkeit im Cluster Partionierendes Clustering teilt die Dokumentenmenge in eine vorgegebene Anzahl k von Clustern auf Agglomeratives Clustering ist komplexer O(n 2 ) als partitionierendes Clustering O(kn)

17 Dokumenten-Clustering Agglomeratives Clustering Berechne die Ähnlichkeitsmatrix Iteriere über die Dokumentenmenge Füge jedes Dokument entweder einem bestehenden Cluster hinzu, oder wenn der Schwellwert das nicht erlaubt, bilde ein neues Cluster Z.B. complete-link clustering α max sim(d k,d i ) d i C i

18 Dokumenten-Clustering Partitionierendes Clustering Bestimme k hinreichend unterschiedliche Dokumente ( seeds ) als Kern der k Cluster Iteriere über die Dokumente Füge jedes Dokument dem Cluster des ihm ähnlichsten Seed-Dokuments hinzu Hängt stark von der guten Wahl der Seed- Dokumente ab

19 Dokumenten-Clustering Cluster Retrieval Bestimme das Centroid jeden Clusters und speichere es als virtuelles Dokument Das virtuelle Dokument hat minimalen Abstand zu allen Dokumenten des Clusters Bei Ahnlichkeitssuchen bestimme das/die Centroid(e) mit den höchsten Retrievalgewichten und ranke die Dokumente des jeweiligen Clusters

20 Dokumenten-Clustering Hierarchische Struktur

21 Dokumenten-Clustering Cluster Browsing Bestimme das Centroid jeden Clusters und speichere das ihm ähnlichste Dokument als Repräsentant des Clusters Bestimme auch Repräsentanten von Clustern der Cluster Speichere Repräsentanten und Dokumente in einer Baum-Struktur und biete die verschiedenen Ebenen zum Browsen an

22 Dokumenten-Clustering Vorteile Berücksichtigt Abhängigkeiten zwischen einzelnen Dokumenten (keine Unabhängigkeitsannahme) Gute Möglichkeiten zur Indexierung über die Centroide der Cluster (effizientes I/O Verhalten) Nachteil Zeigt in Experimenten deutlich schlechtere Retrievalqualität als andere Verfahren

23 Andere Modelle Probabilistische Verfahren Schätzung der Wahrscheinlichkeit, daß ein Dokument relevant bezüglich der Anfrage ist Parameter in starker Abhängigkeit zur Dokumentensammlung und sind nicht auf andere Sammlungen übertragbar Sehr gute Retrievalqualität Prädikatenlogische Verfahren Dokumente und Anfragen stellen Konzepte dar Relevante Dokumente werden von der Anfrage subsumiert (Auswertung z.b. mit Datalog) Viele andere Modelle

24 Verfeinerndes Retrieval und Relevance Feedback

25 Verfeinerndes Retrieval Bisher haben wir nur einen Retrievalschritt betrachtet: Anfrage Resultat In Informationssuchen ist das häufig unbefriedigend Vage Benutzervorstellungen über das Resultat erschweren die präzise Anfragestellung Unterschied zwischen dem Bedarf des Benutzers und der Repräsentation im System Dokumentkollektion ist unbekannt, was die Anfragepräzision schwer einschätzbar macht

26 Möglichkeiten Zur Ergebnisverbesserung gibt es im wesentlichen 3 verschiedene Ansätze Browsing der Dokumente Manuelle Anfragemodifikation Relevance Feedback

27 Browsing Browsing löst alle drei Probleme indem es einige (mehr oder weniger) relevante Dokumente anbietet und der Benutzer beeinflußt dann weitere Angebote Beispiel: Dokumenten Clustering Insbesondere hierarchische Strukturen oder dynamisch berechnete Cluster (Scatter/Gather Clustering) sind effektiv

28 Manuelle Anfragemodifikation Löst vor allem die zwei letzten Probleme indem die Anzahl der Ergebnisdokumente als Indikator für das Vorhandensein relevanter Dokumente und eine hinreichend gute Präzision gewertet wird Zu großes Ergebnis Anfrageverschärfung Kein Ergebnis Anfrageabschwächung Beispiel: Web-Suche mit Search Engines

29 Kombination Browsing und Manuelle Anfragemodifikation treten häufig gemeinsam auf Stelle eine Anfrage Browse durch die Ergebnisse Modifiziere die Anfrage manuell mit relevanten Termen aus dem Browsing Stelle eine neue Anfrage Allerdings ist die grundsätzliche Vorgehensweise ziemlich aufwändig

30 Relevance Feedback Automatische Anfragemodifikation durch das System aufgrund von Relevanzinformation des Benutzers Biete ein Anfrageergebnis an Der Benutzer teilt die Dokumente in relevante und irrelevante Treffer Das System leitet eine neue Anfrage ab, die relevante Treffer verstärkt und irrelevante Treffer vermeidet

31 Beispiel im VRM Term 1 1,0 x d 1 Stelle Anfrage q 0 Ergebnis: {d 1,d 3 } x q 0 0,5 d 2 x x q 1 d 3 x Feedback: d 3 ist relevant, d 1 nicht d 4 x Stelle Anfrage q 1 Ergebnis: {d 2,d 3 } 0,5 1,0 Term 2

32 Vorteile Der Benutzer wird entlastet und muß nicht genau formulieren, warum einige Dokumente relevanter als andere sind Die automatische Anfragemodifikation ist auf die interne Repräsentation abgestimmt Positives und negatives Feedback kann in beliebiger Kombination vom System verwendet werden

33 Abwandlung Pseudo-Relevance Feedback Nicht der Benutzer entscheidet über die Relevanz, sondern die besten Treffer werden als relevantes Feedback benutzt Vorteil: keine Benutzerinteraktion Nachteil: schlechtere Retrievalqualität als echtes Relevance Feedback Positiver Effekt experimentell belegt

34 Bewertung der Relevanz Wichtige Faktoren: Anzahl der zu bewertenden Dokumente: Je mehr desto bessere Retrievalqualität, aber auch mehr Aufwand für den Benutzer Reduzierte Darstellung der Treffer erleichtert das Feedback Relevante Passagen oder Schlüsselbegriffe aus dem Dokument, Thumbnails für Bilder,

35 Art der Bewertung Positives Feedback Nur relevante Objekte auswählen Positives und negatives Feedback Relevante und irrelevante Objekte auswählen Restliche Dokumente sind neutral Gestufte Relevanzwerte Mehr oder weniger relevante Objekte mit gradueller Skala auswählen

36 Beispiel zum Relevance Feedback Rocchio-Verfahren im VRM [Rocchio, 66] Idee: Verschiebung des Anfragepunkts zu den relevanteren Dokumenten mit einem Fragevektor Rocchio-Verfahren gibt optimalen Fragevektor durch Maximierung der Differenz zwischen relevanten und irrelevanten Bewertungen bzgl. der Anfrage Fragevektor vom Centroid der irrelevanten zum Centroid der relevanten Objekte trennt die Dokumente am besten

37 Beispiel Norbert Fuhr, Uni Duisburg

38 Rocchio-Verfahren Multidimensionale Optimierung unter Nebenbedingung max unter D R = Menge der relevanten Dokumente D N = Menge der irrelevanten Dokumente Nebenbedingung: konstanter Betrag des Anfragevektors

39 Rocchio-Verfahren Lösung des Extremwertproblems durch Lagrange Multiplikatoren Setze alle partiellen Ableitungen F und wähle λ q i = 0

40 Rocchio-Verfahren

41 Rocchio-Verfahren Nach Wahl von λ = - ( D N D R / 2) (mittels entsprechender Festlegung der Konstante c in der Nebenbedingung) ergibt sich der optimale Fragevektor tatsächlich als Differenz zwischen den Centroiden

42 Rocchio-Verfahren Fragevektor als Differenz der Centroidvektoren Norbert Fuhr, Uni Duisburg

43 Rocchio-Verfahren Experimentelle Praxis: Der von Rocchio bestimmte Vektor ist nicht immer optimal zur Trennung der Dokumente Heuristiken: geringere Wichtung des negativen Feedbacks Nutzung des alten Anfragevektors

44 Rocchio-Verfahren Fragevektor bei ungleicher Gewichtung von positivem und negativen Feedback Norbert Fuhr, Uni Duisburg

45 Bewertung von Retrieval und den zugehörigen Systemen

46 Grundsätzliche Bewertung Effizienz des Systems Sparsamer Umgang mit Systemressourcen Skalierbarkeit auch über große Kollektionen Effektivität des Retrievals Hohe Qualität der Ergebnisse Sinnvolle Benutzbarkeit des Systems Anwendungsbezogener Trade-off

47 Effizienz Charakteristische Werte sind z.b. Speicherplatzverbrauch CPU-Zeit Anzahl der I/O Operationen Antwortzeit Abhängig von der (Hardware-) Umgebung Ziel im IR: Effizient genug

48 Effektivität Anfrageabhängigkeit Impliziter Informationsbedarf Hauptaugenmerk bei Bewertung auf Nützlichkeit und Benutzbarkeit/Benutzerfreundlichkeit von Systemen Explizite Anfrage Hauptaugenmerk bei Bewertung auf Verhalten des Systems bezüglich der Anfrage (Relevanz der Ergebnismenge)

49 Nützlichkeit (Pertinenz) Subjektives Maß gegen den Informationsbedarf des Anfragestellers Schwierig zu messen (empirische Studien) Fragwürdiges Instrument zum Vergleich von Verfahren/Systemen Vorsicht: Nützliche Dokumente können irrelevant bezüglich der Anfrage sein (z.b. serendipity), relevante Dokumente oft trotzdem unnütz (z.b. veraltet, etc.)

50 Anfrageabhängige Bewertungsmaße Objektive Qualitätsmerkmale Ergebnisauswertung mit Blick auf die Anfrage Unabhängig vom benutzten Anfrage- / Retrieval-Verfahren Ermöglichen Vergleichbarkeit von verschiedenen Systemen/Algorithmen

51 Relevanz In IR Systemen wird ein Antwort-Objekt häufig binär als relevant oder irrelevant eingestuft (z.b. mit Schwellwert) Die Antwort eines Systems wird gegen die Gesamtmenge der Dokumente vergleichen Analysen vergleichen also die zurückgelieferte mit der idealen Antwort

52 Falsche Positive Dokumente, die vom System irrtümlicherweise für relevant gehalten werden False alarms, false drops, Vergrößern die Ergebnismenge unnötigerweise Häufig unvermeidbar (Ambiguität) Können vom Benutzer meist recht leicht aussortiert werden

53 Falsche Negative Relevante Dokumente, die vom System irrtümlicherweise nicht zurückgeliefert werden False dismissals Gefährlich, weil sie vom Benutzer nicht einfach aufgespürt werden können Enthält die Collection bessere Dokumente? Falsche Positive sind oft vorzuziehen

54 Restliche Mengen Richtige Positive (correct alarms) Alle vom System korrekt als relevant eingestuften Dokumente Richtige Negative (correct dismissals) Alle vom System zu Recht verworfenen Dokumente Alle Mengen sind disjunkt und ihre Vereinigung ergibt die gesamte Dokumenten Collection

55 Übersicht Systembewertung Nutzerbewertung relevant relevant ca irrelevant fd irrelevant fa cd

56 Geometrische Deutung Collection fd ca fa gesucht cd gefunden Gesuchte Ergebnisse = fd + ca Berechnete Ergebnisse = ca + fa

57 Precision Anteil der richtig zurückgelieferten Dokumente relativ zu allen zurückgelieferten Dokumenten P Q = ca / (ca + fa) Wert aus [0,1] mit 1 als Bestwert Je mehr false alarms, desto schlechter

58 Recall Anzahl der richtig zurückgelieferten Dokumente relativ zu allen relevanten Dokumente R Q = ca / (ca + fd) Wert aus [0,1] mit 1 als Bestwert Je mehr false drops, desto schlechter

59 Fallout Anzahl der falsch zurückgelieferten Dokumente relativ zu allen irrelevanten Dokumente F Q = fa / (fa + cd) Wert aus [0,1] mit 0 als Bestwert Komplementär zum Recall

60 Precision Recall Analyse Die Maße sind nur sinnvoll in Abhängigkeit voneinander zu betrachten Z.B. Perfekter Recall liefere einfach alle Dokumente zurück, aber dann ist die Precision i.a. extrem schlecht Oft Trade-off im Tuning des Systems Z.B. führen kleinere Ergebnismengen i.a. zu besserer Precision auf Kosten des Recall Meist Betrachtung von Durchschnittswerten für mehrere Anfragen (Makro-Bewertung)

61 Ermittlung Alarms, also zurückgelieferte Elemente, sind meist einfach in ca und fa zu teilen Precision leicht berechenbar Dismissals, also nicht zurückgelieferte Elemente, (vor allem aufgrund ihrer Anzahl) nicht so einfach in cd und fd Recall/Fallout schwierig zu berechnen Standardisierte Benchmarks Vorgegebene Kollektionen und Anfragen Annotierte Ergebnismengen

62 TREC Text REtrieval Conference De Facto Standard seit 1992 Bestimme gemittelte Precision für elf fixierte Recall-Punkte {0, 0.1, 0.2,, 1} nach bestimmtem Verfahren (trec_eval) Verschiedene Tracks, inzwischen auch für Videodaten, Web-Retrieval und Question- Answering erweitert Andere Initiativen z.b. CLEF (cross-language retrieval) oder INEX (XML-Dokumente)

63 Beispiel Anfrage fa ca fd cd P Q R Q F Q Q ,2 0,25 0,66 Q ,8 0,8 0,2 Durchschnitt 0,5 0,525 0,43

64 Darstellung Punkt pro Anfrage in zweidimensionalem Precision-Recall Graph Systeme sind schwer zu vergleichen im Fall, daß eines im Recall besser ist, das andere in der Precision Zusammenfassung in einen Wert: F-Maß Üblicherweise β = 1

65 Retrieval multimedialer Daten

66 MMDBS Bisher: Information Retrieval, i.e. Text Worte tragen semantische Information Texte mit ähnlichen Worten sind von ähnlichem Inhalt Jetzt: komplexe Multimedia Objekte Was sind die Bausteine? Was trägt semantische Information? Wie definiert man ihre (Un-)Ähnlichkeit? Zerlegung der Dokumente in Einzelteile!

67 MMDBS Wesentliche Einzelteile Text ( Volltextsuche, IR Methoden) Bild / Video Audio Retrieval auf Bild, Video, Audio Textuelle (beschreibende) Metadaten Inhaltsbasierte Features

68 Retrieval auf Bild, Video, Audio Textuelle Metadaten Relational (Autor, Größe, ) Inhaltsbeschreibend (Bild einer weißen Maus) Vorteile Gute Ergebnisqualität Nutzung bestehender Verfahren Nachteile Manuelle Annotation ist kostenintensiv Ist wirklich alles auffindbar? (z.b. Hand)

69 Textuelle Metadaten Relationale Metadaten sind hilfreich Können häufig automatisch erzeugt werden (z.b. Ortskoordinaten von Bildaufnahmen) Sind aus dem Inhalt oft gar nicht ableitbar (z.b. Photograph eines Bildes) Unterstützung des Retrievals durch Filterwirkung Nur Bilder eines bestimmten Malers, etc.

70 Textuelle Metadaten Inhaltsbeschreibende Metadaten sind schwierig Ist wirklich alles beschrieben, damit man auf jede Anfrage richtig antworten kann? Korrektheit und Wortwahl der Beschreibung? Granularität der Beschreibung (Nagetier, Maus, )? Kann man Bilder so einfach beschreiben?

71 Beispiel Beschreibung eines Tapetenmusters über das Telefon!

72 Augen zu! Beschreib die Tapete!

73 Verwendete Kategorien Farbe Rosa und weiß Vordergrund weiß, Hintergrund rosa Formen Kleine Blumen 6 Blütenblättern an Stengeln mit 3 Blättern Textur Hoher Kontrast Gleichmäßig über die Fläche verstreut Typische Beispiele für (low-level) Features!

74 Augen zu! Beschreib die Tapete!

75 Bewertung der Textur-Ähnlichkeit

76 Ähnlichkeitssuche Features Bewerten verschiedene (und nicht alle) Charakteristika Sind oft nicht ganz nachvollziehbar Bringen mehr oder weniger relevante Ergebnisse bezüglich der Anfrage Aber ermöglichen manche Anfragen, die sonst nicht ganz einfach wären

77 Erinnerung Ingo Schmitt, Uni Magdeburg

78 Nächste Vorlesung Retrieval in Bildmaterial basierend auf Durchschnittlichen Farbverteilungen Farbhistogrammen Texturen

2 Volltext-Suchmaschinen

2 Volltext-Suchmaschinen 2 Volltext-Suchmaschinen Volltext-Suchmaschinen werden vor allem für die Suche im Internet benutzt, jedoch gibt es auch Erweiterungen (Data Cartridge, Oracle) um Volltextsuche bei SQL-Suchmaschinen wie

Mehr

Bewertung von Ergebnisdokumenten Auswertung von Bewertungen

Bewertung von Ergebnisdokumenten Auswertung von Bewertungen 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung von Bewertungen staab@uni-koblenz.de 1 Vereinfachter IR-Prozess staab@uni-koblenz.de 2 Motivation erstes Ergebnis oft nicht zufriedenstellend

Mehr

Boole'sches Modell <is web>

Boole'sches Modell <is web> Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht

Mehr

Multimedia Retrieval im WS 2011/2012

Multimedia Retrieval im WS 2011/2012 Multimedia Retrieval im WS 2011/2012 2. Prinzipien des Information Retrieval Prof. Dr.-Ing. Marcin Grzegorzek Juniorprofessur für Mustererkennung Institut für Bildinformatik im Department ETI Fakultät

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200

Mehr

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren. Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:

Mehr

6. Probabilistische Retrievalmodelle. Norbert Fuhr

6. Probabilistische Retrievalmodelle. Norbert Fuhr 6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

5 Nicht-Probabilistische Retrievalmodelle

5 Nicht-Probabilistische Retrievalmodelle Nicht-Probabilistische Retrievalmodelle 1 5 Nicht-Probabilistische Retrievalmodelle Boolesches Retrieval Fuzzy-Retrieval Vektorraummodell Clustering Nicht-Probabilistische Retrievalmodelle 2 5.1 Notationen

Mehr

<is web> Information Systems & Semantic Web

<is web> Information Systems & Semantic Web Information Systems University of Koblenz Landau, Germany 3 Prinzipien des Information Retrieval Einführung Information-Retrieval-Modelle Relevance Feedback Bewertung von Retrieval-Systemen Nutzerprofile

Mehr

<is web> Information Systems & Semantic Web University of Koblenz Landau, Germany

<is web> Information Systems & Semantic Web University of Koblenz Landau, Germany Information Systems University of Koblenz Landau, Germany Information Retrieval Hinweise: 3 Prinzipien des Information Retrieval Andreas Henrich Information Retrieval 1 Grundlagen, Modelle und Anwendungen

Mehr

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Internet-Suchmaschinen Probabilistische Retrievalmodelle Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.

Mehr

4. Nicht-Probabilistische Retrievalmodelle

4. Nicht-Probabilistische Retrievalmodelle 4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Rückblick Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Präzision und Ausbeute als elementare Gütemaße Zerlegung und Normalisierung

Mehr

Klassisches Information Retrieval Jan Schrader

Klassisches Information Retrieval Jan Schrader Klassisches Information Retrieval 27.10.2011 Jan Schrader Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies

Mehr

Information Retrieval. 3 Prinzipien des Information Retrieval. 3.1 Einführung. Historische Entwicklung von Information-Retrieval-Systemen

Information Retrieval. 3 Prinzipien des Information Retrieval. 3.1 Einführung. Historische Entwicklung von Information-Retrieval-Systemen 3 Prinzipien des Information Retrieval Einführung Information-Retrieval-Modelle Relevance Feedback Bewertung von Retrieval-Systemen Nutzerprofile Literaturempfehlungen Information Retrieval notwendig zur

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Information Retrieval

Information Retrieval Information Retrieval Eine kurze Einführung von Ronny Berger 18. Juli 2002 Typeset by FoilTEX IR-Konzepte Definition von Information Retrieval: Gegenstand des Information-Retrieval ist die inhaltliche

Mehr

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

5. Probabilistische Retrievalmodelle

5. Probabilistische Retrievalmodelle 5. Probabilistische Retrievalmodelle 1 5. Probabilistische Retrievalmodelle Norbert Fuhr Notationen 5. Probabilistische Retrievalmodelle 3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D

Mehr

Information Retrieval und Multimedia Datenbanken 1

Information Retrieval und Multimedia Datenbanken 1 Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung 28.04.06 Multimedia-Datenbanken Persistente Speicherung von Mediendaten, z.b. Text-Dokumente Vektorgraphik,

Mehr

Information Retrieval und Question Answering

Information Retrieval und Question Answering und Question Answering Kai Kugler 19. November 2009 Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem

Mehr

Erweitertes boolsches Retrieval

Erweitertes boolsches Retrieval Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15. SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit

Mehr

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert) Klassen von Retrieval-Modellen Boolesche und Vektorraum- Modelle Boolesche Modelle (Mengen-basiert) Erweitertes Boolesches Modell Vektorraummodelle (vector space) (statistisch-algebraischer Ansatz) Latente

Mehr

Boolesche- und Vektorraum- Modelle

Boolesche- und Vektorraum- Modelle Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. 3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen

Mehr

(Bamberg)

(Bamberg) Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie) Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des

Mehr

Information Retrieval

Information Retrieval Information Retrieval 1 Information Retrieval Norbert Fuhr 13. Oktober 2011 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Daten Information Wissen 4 Dimensionen des IR 5 Rahmenarchitektur für IR-Systeme

Mehr

Multimedia-Datenbanken im SS 2010 Ähnlichkeitsmaße II

Multimedia-Datenbanken im SS 2010 Ähnlichkeitsmaße II Multimedia-Datenbanken im SS 2010 Ähnlichkeitsmaße II Dr.-Ing. Marcin Grzegorzek 22.06.2010 Inhalte und Termine 1. Einführung in MMDB 1.1 Grundlegende Begriffe 1.2 Suche in einem MMDBS 1.3 MMDBMS-Anwendungen

Mehr

Probabilistische IR-Modelle

Probabilistische IR-Modelle Kapitel 4 Probabilistische IR-Modelle 4.1 Einführung Ein wesentlicher Unterschied zwischen IR-Systemen und vielen anderen klassischen Informationssystemen besteht in der intrinsischen Unsicherheit des

Mehr

Information-Retrieval: Evaluation

Information-Retrieval: Evaluation Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Verteiltes Information Retrieval

Verteiltes Information Retrieval Seminar Experimentielle Evaluierung im IR Verteiltes Information Retrieval Sascha Brink Sebastian Ruiling 20.12.2005 Universität Duisburg-Essen Agenda Motivation / Grundlagen CORI DTF Diskussion der Verfahren

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Suchmaschinentechnologie

Suchmaschinentechnologie Modul: Studiengang: Bibliotheksinformatik Abschluss: Master of Science Modulverantwortliche/r: Sascha Szott & Frank Seeliger Semester: 2 Präsenzstunden: 50.0 Art der Lehrveranstaltung: Pflicht Dauer: 2

Mehr

3. Evaluierung. Norbert Fuhr

3. Evaluierung. Norbert Fuhr 3. Evaluierung Norbert Fuhr Perspektiven auf IR-Systeme Benutzer Käufer Manager Hersteller Entwickler... Fragestellungen an die Evaluierung Was kann ich ändern, um die Qualität eines Systems zu verbessern?

Mehr

LDA-based Document Model for Adhoc-Retrieval

LDA-based Document Model for Adhoc-Retrieval Martin Luther Universität Halle-Wittenberg 30. März 2007 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Multimedia-Datenbanken im SS 2010 Einführung in MMDB

Multimedia-Datenbanken im SS 2010 Einführung in MMDB Multimedia-Datenbanken im SS 2010 Einführung in MMDB Dr.-Ing. Marcin Grzegorzek 27.04.2010 Ähnlichkeitssuche in Multimedia-Datenbanken 2/ 28 Inhalte und Termine 1. Einführung in MMDB 1.1 Grundlegende Begriffe

Mehr

Information Retrieval

Information Retrieval Information Retrieval Norbert Fuhr 12. April 2010 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Dimensionen des IR 4 Daten Information Wissen 5 Rahmenarchitektur für IR-Systeme IR in Beispielen IR-Aufgaben

Mehr

BLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen.

BLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen. Eingangtest (anonym) BLATT 1 Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen. 1) Was ist ein Zeichensatz (character set) und was eine

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data

Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Diplomarbeit Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Stefan Brecheisen Aufgabensteller: Betreuer: Dank an: Prof. Dr. Hans-Peter Kriegel Martin Pfeifle Peer Kröger, Matthias

Mehr

Support Vector Machines (SVM)

Support Vector Machines (SVM) Universität Ulm 12. Juni 2007 Inhalt 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor- und Nachteile der SVM 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor-

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

Technische Universität München Zentrum Mathematik. Übungsblatt 7

Technische Universität München Zentrum Mathematik. Übungsblatt 7 Technische Universität München Zentrum Mathematik Mathematik (Elektrotechnik) Prof. Dr. Anusch Taraz Dr. Michael Ritter Übungsblatt 7 Hausaufgaben Aufgabe 7. Für n N ist die Matrix-Exponentialfunktion

Mehr

Vorlesung Datenbanken II SS 2006

Vorlesung Datenbanken II SS 2006 Vorlesung Datenbanken II SS 2006 1 Vorlesung Datenbanken II SS 2006 Sven Wachsmuth, Technische Fakultät, AG Angewandte Informatik Vorlesung Datenbanken II SS 2006 2 Suche in Bilddatenbanken Verschlagwortete

Mehr

Information Retrieval

Information Retrieval Ein Überblick Norbert Fuhr Universität Duisburg-Essen Vorlesung Information Engineering SS 2013 UNIVERSITÄT D U I S B U R G E S S E N Inhaltsverzeichnis 1 Einführung 2 Repräsentation von Textinhalten 3

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist Rückblick Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal

Mehr

Unüberwachtes Lernen

Unüberwachtes Lernen Unüberwachtes Lernen Mustererkennung und Klassifikation, Vorlesung No. 12 M. O. Franz 17.01.2008 Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering Übersicht

Mehr

Grundbegriffe des Information Retrieval

Grundbegriffe des Information Retrieval Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

3. Analyse der Kamerabewegung Video - Inhaltsanalyse

3. Analyse der Kamerabewegung Video - Inhaltsanalyse 3. Analyse der Kamerabewegung Video - Inhaltsanalyse Stephan Kopf Bewegungen in Videos Objektbewegungen (object motion) Kameraoperationen bzw. Kamerabewegungen (camera motion) Semantische Informationen

Mehr

1 Boolesches Retrieval (2)

1 Boolesches Retrieval (2) 2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des

Mehr

Lineares Gleichungssystem - Vertiefung

Lineares Gleichungssystem - Vertiefung Lineares Gleichungssystem - Vertiefung Die Lösung Linearer Gleichungssysteme ist das "Gauß'sche Eliminationsverfahren" gut geeignet - schon erklärt unter Z02. Alternativ kann mit einem Matrixformalismus

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Kapitel 6 Lineare Gleichungssysteme 6. Gaußalgorithmus Aufgabe 6. : Untersuchen Sie die folgenden linearen Gleichungssysteme mit dem Gaußalgorithmus auf Lösbarkeit und bestimmen Sie jeweils die Lösungsmenge.

Mehr

Implementierung: Dokumentclustering

Implementierung: Dokumentclustering Implementierung: Dokumentclustering Max Jakob Florian Winkelmeier Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik HS Information Retrieval Dozentin: Dr. Karin Haenelt Wintersemester

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval

Mehr

Stephan Filipczyk. Relevance Feedback. Seminar Bridging the Semantic Gap

Stephan Filipczyk. Relevance Feedback. Seminar Bridging the Semantic Gap Stephan Filipczyk Relevance Feedback Seminar Bridging the Semantic Gap Übersicht Motivation Komponenten und Funktionsweise Ausprägungen Voraussetzungen und Herausforderungen Fragen Seminar "Bridging the

Mehr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen

Mehr

Vektoren - Die Basis

Vektoren - Die Basis Vektoren - Die Basis Motivation (Als Vereinfachung - der Schreibarbeit - wählen wir meistens Vektoren in R 2.) Eigentlich ist ja Alles klar! Für einen Vektor a gilt a = ( a x a y )! Am Ende werden wir

Mehr

Duplikatanalyse. Ein Vortrag von. Susanne O'Shaughnessy und Michaela Geierhos

Duplikatanalyse. Ein Vortrag von. Susanne O'Shaughnessy und Michaela Geierhos Duplikatanalyse Ein Vortrag von Susanne O'Shaughnessy und Michaela Geierhos 13.07.2005 Duplikaten Elimination Problem: Mit dem explosionsartigen Anwachsen des WWW ist eine riesige Dokumentenmenge zugänglich.

Mehr

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3 Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................

Mehr

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer. Anwendung Input: Query-Bild, Ergebnis: Menge ähnlicher Bilder. Kapitel 8: Ähnlichkeitsanfragen und ihre effiziente Evaluierung Wie zu finden? Corbis, NASA: EOS Bilddatenbank Folie Folie 2 Ähnlichkeitssuche

Mehr

Internet-Suchmaschinen Evaluierung

Internet-Suchmaschinen Evaluierung Internet-Suchmaschinen Evaluierung Norbert Fuhr 1 / 83 Vorüberlegungen Warum evaluieren? Anforderungen an Evaluierungen Qualitätskriterien Vorüberlegungen Warum evaluieren? Perspektiven auf IR-Systeme

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Wie liest man Konfidenzintervalle? Teil I. Premiu m

Wie liest man Konfidenzintervalle? Teil I. Premiu m Wie liest man Konfidenzintervalle? Teil I Premiu m Was sind Konfidenzintervalle? Ein Konfidenzintervall (KI) ist ein Maß für die Unsicherheit bezüglich einer Schätzung eines Effekts. Es ist ein Intervall

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Hauptseminar KDD SS 2002

Hauptseminar KDD SS 2002 Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung

Mehr

Lineare Algebra für D-ITET, D-MATL, RW. Beispiellösung für Serie 6. Aufgabe 6.1. Dr. V. Gradinaru K. Imeri. Herbstsemester 2018.

Lineare Algebra für D-ITET, D-MATL, RW. Beispiellösung für Serie 6. Aufgabe 6.1. Dr. V. Gradinaru K. Imeri. Herbstsemester 2018. Dr. V. Gradinaru K. Imeri Herbstsemester 8 Lineare Algebra für D-ITET, D-MATL, RW ETH Zürich D-MATH Beispiellösung für Serie 6 Aufgabe 6. Multiple Choice: Online abzugeben. 6.a) (i) Welche der folgenden

Mehr

Universität Augsburg, Institut für Informatik Sommersemester 2009 Prof. Dr. Werner Kießling 16. Juli Semesterklausur

Universität Augsburg, Institut für Informatik Sommersemester 2009 Prof. Dr. Werner Kießling 16. Juli Semesterklausur Universität Augsburg, Institut für Informatik Sommersemester 2009 Prof. Dr. Werner Kießling 16. Juli 2009 Dr. A. Huhn, M. Endres Suchmaschinen Semesterklausur Hinweise: Die Bearbeitungszeit beträgt 90

Mehr

3 Prinzipien des Information Retrieval

3 Prinzipien des Information Retrieval 3 Prinzipien des Information Retrieval Einführung Information-Retrieval-Modelle Relevance Feedback Bewertung von Retrieval-Systemen Nutzerprofile Literaturempfehlungen Information Retrieval notwendig zur

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2008 Termin: 4. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2008 Termin: 4. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2008 Termin: 4. 7. 2008 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Didaktik der Analysis und der Analytischen Geometrie/ Linearen Algebra

Didaktik der Analysis und der Analytischen Geometrie/ Linearen Algebra A. Filler[-3mm] Didaktik der Analysis und der Analytischen Geometrie/ Linearen Algebra, Teil 8 Folie 1 /27 Didaktik der Analysis und der Analytischen Geometrie/ Linearen Algebra 8. Das Skalarprodukt, metrische

Mehr

Institut für Analysis und Scientific Computing Dr. E. Weinmüller SS 2015

Institut für Analysis und Scientific Computing Dr. E. Weinmüller SS 2015 Institut für Analysis und Scientific Computing TU Wien Dr. E. Weinmüller SS 205 A N A L Y S I S I I F Ü R T P H, (0.09) Test 2 Gruppe (DI, 6.6.205) (mit Lösung ) Sie können den Taschenrechner verwenden.

Mehr

Implementierung eines Vektormodells

Implementierung eines Vektormodells Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014

Mehr