Information Retrieval und Multimedia Datenbanken 1
|
|
- Eva Lenz
- vor 7 Jahren
- Abrufe
Transkript
1 Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung
2 Vektorraummodell Bekanntestes IR Modell Grundidee: Lineare Algebra Dokumente und Anfragen sind Punkte in einem (orthonormalen) Vektorraum, der von den Termen des Grundvokabulars aufgespannt wird Ähnliche Vektoren kennzeichnen ähnliche Dokumente
3 Vektorraummodell Anfragen Punkte im Vektorraum ( virtuelle Dokumente ) Abstandsmessung von Anfrage und Dokumenten durch geeignete Distanzmaße Beliebige Termgewichtungen und zudem experimentell den vorigen Modellen überlegen Entwickelt für das SMART Retrievalsystem (G. Salton, 1971)
4 Vektorraummodell Woher kommen die Dokumentgewichte? Grundsätzlich ist jede Gewichtung möglich Hauptsächlich zwei verschiedene Ansätze Coordination Level Match TFxIDF CLM ist einfacher, aber TFxIDF liefert in der Regel bessere Ergebnisse
5 Vektorraummodell Coordination Level Match Nur binäre Dokument- und Anfragegewichte Dokumentbeschreibungen sind damit analog zum Booleschen Modell Ähnlichkeit wird aber nicht durch Boolesche Junktoren, sondern durch Skalarprodukte bestimmt CLM zählt wie viele der Anfrageterme in jedem Dokument vorkommen
6 Vektorraummodell Coordination Level Match Im Kontrast zum Booleschen Modell wird eine Ähnlichkeitssuche ermöglicht Beispiel Vokabular {A,B,C}, Anfrage: Q = A oder B := (1,1,0) D 1 A B D 2 C B D 3 A Boolsches Modell mit or : alles gleichwertige Treffer VR Modell mit CLM: D1 besser als D2, D3
7 Vektorraummodell TFxIDF Zusammengesetzt aus Term Frequency und Inverted Document Frequency Term Frequency bewertet wie häufig ein Term in einem Dokument vorkommt Document Frequency bewertet in wie vielen verschiedenen Dokumenten ein Term vorkommt Damit bewertet TFxIDF für jedes Dokument die relative Termrelevanz normalisiert mit der Diskriminierungskraft des Terms bzgl. der Kollektion
8 Vektorraummodell (normalized) Term Frequency ntf i = tf mi tf mi (l m /al) tf mi = # Vorkommen von Term i in Dokument d m l m = Dokumentlänge von d m al = durchschnittliche Dokumentlänge
9 Vektorraummodell Inverted Document Frequency idf i = log ( D /n i ) D + 1 D = Menge der Dokumente in der Kollektion n i = # Dokumente die Term i enthalten
10 Vektorraummodell TFxIDF Termgewichte für Term i und Dokument d m w mi = ntf i * idf i Ein Dokument ist also umso relevanter, je häufiger die Anfrageterme im Dokument vorkommen und je diskriminierender diese Terme für die Kollektion sind
11 Vektorraummodell Vektorraummodell vs. Booleschem und Fuzzy Modell in durchschnittlichen Precision Werten bei fixiertem Recall (Salton et al., 1983)
12 Vektorraummodell Vorteile Einfach und anschauliches Modell Leichte Anfragestellung bringt hohe Benutzerfreundlichkeit Graduelle Ähnlichkeitsunterschiede Viele verschiedene Ähnlichkeits-/Distanzmaße Direkt auf neuen Kollektionen anwendbar Sehr gute Retrievalqualität Möglichkeit zum Relevance Feedback
13 Vektorraummodell Nachteile Benutzt sehr viele Heuristiken, die nicht für jede Kollektion übertragbar sein müssen Z.B. Dokumente mit ähnlichen Termen sind auch ähnlich relevant Feststehende Gewichte erlauben keine einfachen benutzerbezogenen Verschiebungen Sehr hochdimensionale Vektorräume
14 Dokumenten-Clustering Gänzlich anderes Retrieval-Modell Keine explizite Anfrage, sondern Anfrage durch Beispieldokument Ähnlichkeit von Dokumenten wird genutzt, um von einem relevanten zu anderen (potentiell) relevanten Dokumenten zu kommen Cluster-Hypothese Ähnlichkeit der (ir-)relevanten Dokumente untereinander ist größer, als die zwischen zufällig ausgewählten Teilmengen
15 Dokumenten-Clustering Cluster-Hypothese wurde experimentell nachgewiesen Grundidee: Beim Aufbau der Kollektion sollen Cluster unabhängig von Anfragen bereits vorberechnet werden: Lege ein Ähnlichkeitsmaß fest Berechne Ähnlichkeitsmatrix für alle Dokumentpaare Berechne die Cluster Speichere Cluster physikalisch zusammen ab
16 Dokumenten-Clustering Berechnung der Cluster Agglomeratives Clustering benutzt einen vorgegebenen Schwellwert zur Entscheidung der Ähnlichkeit im Cluster Partionierendes Clustering teilt die Dokumentenmenge in eine vorgegebene Anzahl k von Clustern auf Agglomeratives Clustering ist komplexer O(n 2 ) als partitionierendes Clustering O(kn)
17 Dokumenten-Clustering Agglomeratives Clustering Berechne die Ähnlichkeitsmatrix Iteriere über die Dokumentenmenge Füge jedes Dokument entweder einem bestehenden Cluster hinzu, oder wenn der Schwellwert das nicht erlaubt, bilde ein neues Cluster Z.B. complete-link clustering α max sim(d k,d i ) d i C i
18 Dokumenten-Clustering Partitionierendes Clustering Bestimme k hinreichend unterschiedliche Dokumente ( seeds ) als Kern der k Cluster Iteriere über die Dokumente Füge jedes Dokument dem Cluster des ihm ähnlichsten Seed-Dokuments hinzu Hängt stark von der guten Wahl der Seed- Dokumente ab
19 Dokumenten-Clustering Cluster Retrieval Bestimme das Centroid jeden Clusters und speichere es als virtuelles Dokument Das virtuelle Dokument hat minimalen Abstand zu allen Dokumenten des Clusters Bei Ahnlichkeitssuchen bestimme das/die Centroid(e) mit den höchsten Retrievalgewichten und ranke die Dokumente des jeweiligen Clusters
20 Dokumenten-Clustering Hierarchische Struktur
21 Dokumenten-Clustering Cluster Browsing Bestimme das Centroid jeden Clusters und speichere das ihm ähnlichste Dokument als Repräsentant des Clusters Bestimme auch Repräsentanten von Clustern der Cluster Speichere Repräsentanten und Dokumente in einer Baum-Struktur und biete die verschiedenen Ebenen zum Browsen an
22 Dokumenten-Clustering Vorteile Berücksichtigt Abhängigkeiten zwischen einzelnen Dokumenten (keine Unabhängigkeitsannahme) Gute Möglichkeiten zur Indexierung über die Centroide der Cluster (effizientes I/O Verhalten) Nachteil Zeigt in Experimenten deutlich schlechtere Retrievalqualität als andere Verfahren
23 Andere Modelle Probabilistische Verfahren Schätzung der Wahrscheinlichkeit, daß ein Dokument relevant bezüglich der Anfrage ist Parameter in starker Abhängigkeit zur Dokumentensammlung und sind nicht auf andere Sammlungen übertragbar Sehr gute Retrievalqualität Prädikatenlogische Verfahren Dokumente und Anfragen stellen Konzepte dar Relevante Dokumente werden von der Anfrage subsumiert (Auswertung z.b. mit Datalog) Viele andere Modelle
24 Verfeinerndes Retrieval und Relevance Feedback
25 Verfeinerndes Retrieval Bisher haben wir nur einen Retrievalschritt betrachtet: Anfrage Resultat In Informationssuchen ist das häufig unbefriedigend Vage Benutzervorstellungen über das Resultat erschweren die präzise Anfragestellung Unterschied zwischen dem Bedarf des Benutzers und der Repräsentation im System Dokumentkollektion ist unbekannt, was die Anfragepräzision schwer einschätzbar macht
26 Möglichkeiten Zur Ergebnisverbesserung gibt es im wesentlichen 3 verschiedene Ansätze Browsing der Dokumente Manuelle Anfragemodifikation Relevance Feedback
27 Browsing Browsing löst alle drei Probleme indem es einige (mehr oder weniger) relevante Dokumente anbietet und der Benutzer beeinflußt dann weitere Angebote Beispiel: Dokumenten Clustering Insbesondere hierarchische Strukturen oder dynamisch berechnete Cluster (Scatter/Gather Clustering) sind effektiv
28 Manuelle Anfragemodifikation Löst vor allem die zwei letzten Probleme indem die Anzahl der Ergebnisdokumente als Indikator für das Vorhandensein relevanter Dokumente und eine hinreichend gute Präzision gewertet wird Zu großes Ergebnis Anfrageverschärfung Kein Ergebnis Anfrageabschwächung Beispiel: Web-Suche mit Search Engines
29 Kombination Browsing und Manuelle Anfragemodifikation treten häufig gemeinsam auf Stelle eine Anfrage Browse durch die Ergebnisse Modifiziere die Anfrage manuell mit relevanten Termen aus dem Browsing Stelle eine neue Anfrage Allerdings ist die grundsätzliche Vorgehensweise ziemlich aufwändig
30 Relevance Feedback Automatische Anfragemodifikation durch das System aufgrund von Relevanzinformation des Benutzers Biete ein Anfrageergebnis an Der Benutzer teilt die Dokumente in relevante und irrelevante Treffer Das System leitet eine neue Anfrage ab, die relevante Treffer verstärkt und irrelevante Treffer vermeidet
31 Beispiel im VRM Term 1 1,0 x d 1 Stelle Anfrage q 0 Ergebnis: {d 1,d 3 } x q 0 0,5 d 2 x x q 1 d 3 x Feedback: d 3 ist relevant, d 1 nicht d 4 x Stelle Anfrage q 1 Ergebnis: {d 2,d 3 } 0,5 1,0 Term 2
32 Vorteile Der Benutzer wird entlastet und muß nicht genau formulieren, warum einige Dokumente relevanter als andere sind Die automatische Anfragemodifikation ist auf die interne Repräsentation abgestimmt Positives und negatives Feedback kann in beliebiger Kombination vom System verwendet werden
33 Abwandlung Pseudo-Relevance Feedback Nicht der Benutzer entscheidet über die Relevanz, sondern die besten Treffer werden als relevantes Feedback benutzt Vorteil: keine Benutzerinteraktion Nachteil: schlechtere Retrievalqualität als echtes Relevance Feedback Positiver Effekt experimentell belegt
34 Bewertung der Relevanz Wichtige Faktoren: Anzahl der zu bewertenden Dokumente: Je mehr desto bessere Retrievalqualität, aber auch mehr Aufwand für den Benutzer Reduzierte Darstellung der Treffer erleichtert das Feedback Relevante Passagen oder Schlüsselbegriffe aus dem Dokument, Thumbnails für Bilder,
35 Art der Bewertung Positives Feedback Nur relevante Objekte auswählen Positives und negatives Feedback Relevante und irrelevante Objekte auswählen Restliche Dokumente sind neutral Gestufte Relevanzwerte Mehr oder weniger relevante Objekte mit gradueller Skala auswählen
36 Beispiel zum Relevance Feedback Rocchio-Verfahren im VRM [Rocchio, 66] Idee: Verschiebung des Anfragepunkts zu den relevanteren Dokumenten mit einem Fragevektor Rocchio-Verfahren gibt optimalen Fragevektor durch Maximierung der Differenz zwischen relevanten und irrelevanten Bewertungen bzgl. der Anfrage Fragevektor vom Centroid der irrelevanten zum Centroid der relevanten Objekte trennt die Dokumente am besten
37 Beispiel Norbert Fuhr, Uni Duisburg
38 Rocchio-Verfahren Multidimensionale Optimierung unter Nebenbedingung max unter D R = Menge der relevanten Dokumente D N = Menge der irrelevanten Dokumente Nebenbedingung: konstanter Betrag des Anfragevektors
39 Rocchio-Verfahren Lösung des Extremwertproblems durch Lagrange Multiplikatoren Setze alle partiellen Ableitungen F und wähle λ q i = 0
40 Rocchio-Verfahren
41 Rocchio-Verfahren Nach Wahl von λ = - ( D N D R / 2) (mittels entsprechender Festlegung der Konstante c in der Nebenbedingung) ergibt sich der optimale Fragevektor tatsächlich als Differenz zwischen den Centroiden
42 Rocchio-Verfahren Fragevektor als Differenz der Centroidvektoren Norbert Fuhr, Uni Duisburg
43 Rocchio-Verfahren Experimentelle Praxis: Der von Rocchio bestimmte Vektor ist nicht immer optimal zur Trennung der Dokumente Heuristiken: geringere Wichtung des negativen Feedbacks Nutzung des alten Anfragevektors
44 Rocchio-Verfahren Fragevektor bei ungleicher Gewichtung von positivem und negativen Feedback Norbert Fuhr, Uni Duisburg
45 Bewertung von Retrieval und den zugehörigen Systemen
46 Grundsätzliche Bewertung Effizienz des Systems Sparsamer Umgang mit Systemressourcen Skalierbarkeit auch über große Kollektionen Effektivität des Retrievals Hohe Qualität der Ergebnisse Sinnvolle Benutzbarkeit des Systems Anwendungsbezogener Trade-off
47 Effizienz Charakteristische Werte sind z.b. Speicherplatzverbrauch CPU-Zeit Anzahl der I/O Operationen Antwortzeit Abhängig von der (Hardware-) Umgebung Ziel im IR: Effizient genug
48 Effektivität Anfrageabhängigkeit Impliziter Informationsbedarf Hauptaugenmerk bei Bewertung auf Nützlichkeit und Benutzbarkeit/Benutzerfreundlichkeit von Systemen Explizite Anfrage Hauptaugenmerk bei Bewertung auf Verhalten des Systems bezüglich der Anfrage (Relevanz der Ergebnismenge)
49 Nützlichkeit (Pertinenz) Subjektives Maß gegen den Informationsbedarf des Anfragestellers Schwierig zu messen (empirische Studien) Fragwürdiges Instrument zum Vergleich von Verfahren/Systemen Vorsicht: Nützliche Dokumente können irrelevant bezüglich der Anfrage sein (z.b. serendipity), relevante Dokumente oft trotzdem unnütz (z.b. veraltet, etc.)
50 Anfrageabhängige Bewertungsmaße Objektive Qualitätsmerkmale Ergebnisauswertung mit Blick auf die Anfrage Unabhängig vom benutzten Anfrage- / Retrieval-Verfahren Ermöglichen Vergleichbarkeit von verschiedenen Systemen/Algorithmen
51 Relevanz In IR Systemen wird ein Antwort-Objekt häufig binär als relevant oder irrelevant eingestuft (z.b. mit Schwellwert) Die Antwort eines Systems wird gegen die Gesamtmenge der Dokumente vergleichen Analysen vergleichen also die zurückgelieferte mit der idealen Antwort
52 Falsche Positive Dokumente, die vom System irrtümlicherweise für relevant gehalten werden False alarms, false drops, Vergrößern die Ergebnismenge unnötigerweise Häufig unvermeidbar (Ambiguität) Können vom Benutzer meist recht leicht aussortiert werden
53 Falsche Negative Relevante Dokumente, die vom System irrtümlicherweise nicht zurückgeliefert werden False dismissals Gefährlich, weil sie vom Benutzer nicht einfach aufgespürt werden können Enthält die Collection bessere Dokumente? Falsche Positive sind oft vorzuziehen
54 Restliche Mengen Richtige Positive (correct alarms) Alle vom System korrekt als relevant eingestuften Dokumente Richtige Negative (correct dismissals) Alle vom System zu Recht verworfenen Dokumente Alle Mengen sind disjunkt und ihre Vereinigung ergibt die gesamte Dokumenten Collection
55 Übersicht Systembewertung Nutzerbewertung relevant relevant ca irrelevant fd irrelevant fa cd
56 Geometrische Deutung Collection fd ca fa gesucht cd gefunden Gesuchte Ergebnisse = fd + ca Berechnete Ergebnisse = ca + fa
57 Precision Anteil der richtig zurückgelieferten Dokumente relativ zu allen zurückgelieferten Dokumenten P Q = ca / (ca + fa) Wert aus [0,1] mit 1 als Bestwert Je mehr false alarms, desto schlechter
58 Recall Anzahl der richtig zurückgelieferten Dokumente relativ zu allen relevanten Dokumente R Q = ca / (ca + fd) Wert aus [0,1] mit 1 als Bestwert Je mehr false drops, desto schlechter
59 Fallout Anzahl der falsch zurückgelieferten Dokumente relativ zu allen irrelevanten Dokumente F Q = fa / (fa + cd) Wert aus [0,1] mit 0 als Bestwert Komplementär zum Recall
60 Precision Recall Analyse Die Maße sind nur sinnvoll in Abhängigkeit voneinander zu betrachten Z.B. Perfekter Recall liefere einfach alle Dokumente zurück, aber dann ist die Precision i.a. extrem schlecht Oft Trade-off im Tuning des Systems Z.B. führen kleinere Ergebnismengen i.a. zu besserer Precision auf Kosten des Recall Meist Betrachtung von Durchschnittswerten für mehrere Anfragen (Makro-Bewertung)
61 Ermittlung Alarms, also zurückgelieferte Elemente, sind meist einfach in ca und fa zu teilen Precision leicht berechenbar Dismissals, also nicht zurückgelieferte Elemente, (vor allem aufgrund ihrer Anzahl) nicht so einfach in cd und fd Recall/Fallout schwierig zu berechnen Standardisierte Benchmarks Vorgegebene Kollektionen und Anfragen Annotierte Ergebnismengen
62 TREC Text REtrieval Conference De Facto Standard seit 1992 Bestimme gemittelte Precision für elf fixierte Recall-Punkte {0, 0.1, 0.2,, 1} nach bestimmtem Verfahren (trec_eval) Verschiedene Tracks, inzwischen auch für Videodaten, Web-Retrieval und Question- Answering erweitert Andere Initiativen z.b. CLEF (cross-language retrieval) oder INEX (XML-Dokumente)
63 Beispiel Anfrage fa ca fd cd P Q R Q F Q Q ,2 0,25 0,66 Q ,8 0,8 0,2 Durchschnitt 0,5 0,525 0,43
64 Darstellung Punkt pro Anfrage in zweidimensionalem Precision-Recall Graph Systeme sind schwer zu vergleichen im Fall, daß eines im Recall besser ist, das andere in der Precision Zusammenfassung in einen Wert: F-Maß Üblicherweise β = 1
65 Retrieval multimedialer Daten
66 MMDBS Bisher: Information Retrieval, i.e. Text Worte tragen semantische Information Texte mit ähnlichen Worten sind von ähnlichem Inhalt Jetzt: komplexe Multimedia Objekte Was sind die Bausteine? Was trägt semantische Information? Wie definiert man ihre (Un-)Ähnlichkeit? Zerlegung der Dokumente in Einzelteile!
67 MMDBS Wesentliche Einzelteile Text ( Volltextsuche, IR Methoden) Bild / Video Audio Retrieval auf Bild, Video, Audio Textuelle (beschreibende) Metadaten Inhaltsbasierte Features
68 Retrieval auf Bild, Video, Audio Textuelle Metadaten Relational (Autor, Größe, ) Inhaltsbeschreibend (Bild einer weißen Maus) Vorteile Gute Ergebnisqualität Nutzung bestehender Verfahren Nachteile Manuelle Annotation ist kostenintensiv Ist wirklich alles auffindbar? (z.b. Hand)
69 Textuelle Metadaten Relationale Metadaten sind hilfreich Können häufig automatisch erzeugt werden (z.b. Ortskoordinaten von Bildaufnahmen) Sind aus dem Inhalt oft gar nicht ableitbar (z.b. Photograph eines Bildes) Unterstützung des Retrievals durch Filterwirkung Nur Bilder eines bestimmten Malers, etc.
70 Textuelle Metadaten Inhaltsbeschreibende Metadaten sind schwierig Ist wirklich alles beschrieben, damit man auf jede Anfrage richtig antworten kann? Korrektheit und Wortwahl der Beschreibung? Granularität der Beschreibung (Nagetier, Maus, )? Kann man Bilder so einfach beschreiben?
71 Beispiel Beschreibung eines Tapetenmusters über das Telefon!
72 Augen zu! Beschreib die Tapete!
73 Verwendete Kategorien Farbe Rosa und weiß Vordergrund weiß, Hintergrund rosa Formen Kleine Blumen 6 Blütenblättern an Stengeln mit 3 Blättern Textur Hoher Kontrast Gleichmäßig über die Fläche verstreut Typische Beispiele für (low-level) Features!
74 Augen zu! Beschreib die Tapete!
75 Bewertung der Textur-Ähnlichkeit
76 Ähnlichkeitssuche Features Bewerten verschiedene (und nicht alle) Charakteristika Sind oft nicht ganz nachvollziehbar Bringen mehr oder weniger relevante Ergebnisse bezüglich der Anfrage Aber ermöglichen manche Anfragen, die sonst nicht ganz einfach wären
77 Erinnerung Ingo Schmitt, Uni Magdeburg
78 Nächste Vorlesung Retrieval in Bildmaterial basierend auf Durchschnittlichen Farbverteilungen Farbhistogrammen Texturen
2 Volltext-Suchmaschinen
2 Volltext-Suchmaschinen Volltext-Suchmaschinen werden vor allem für die Suche im Internet benutzt, jedoch gibt es auch Erweiterungen (Data Cartridge, Oracle) um Volltextsuche bei SQL-Suchmaschinen wie
MehrBewertung von Ergebnisdokumenten Auswertung von Bewertungen
3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung von Bewertungen staab@uni-koblenz.de 1 Vereinfachter IR-Prozess staab@uni-koblenz.de 2 Motivation erstes Ergebnis oft nicht zufriedenstellend
MehrBoole'sches Modell <is web>
Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht
MehrMultimedia Retrieval im WS 2011/2012
Multimedia Retrieval im WS 2011/2012 2. Prinzipien des Information Retrieval Prof. Dr.-Ing. Marcin Grzegorzek Juniorprofessur für Mustererkennung Institut für Bildinformatik im Department ETI Fakultät
MehrÜbungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen
Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200
MehrIndexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.
Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:
Mehr6. Probabilistische Retrievalmodelle. Norbert Fuhr
6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
Mehr5 Nicht-Probabilistische Retrievalmodelle
Nicht-Probabilistische Retrievalmodelle 1 5 Nicht-Probabilistische Retrievalmodelle Boolesches Retrieval Fuzzy-Retrieval Vektorraummodell Clustering Nicht-Probabilistische Retrievalmodelle 2 5.1 Notationen
Mehr<is web> Information Systems & Semantic Web
Information Systems University of Koblenz Landau, Germany 3 Prinzipien des Information Retrieval Einführung Information-Retrieval-Modelle Relevance Feedback Bewertung von Retrieval-Systemen Nutzerprofile
Mehr<is web> Information Systems & Semantic Web University of Koblenz Landau, Germany
Information Systems University of Koblenz Landau, Germany Information Retrieval Hinweise: 3 Prinzipien des Information Retrieval Andreas Henrich Information Retrieval 1 Grundlagen, Modelle und Anwendungen
MehrProjektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten
Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrInternet-Suchmaschinen Probabilistische Retrievalmodelle
Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.
Mehr4. Nicht-Probabilistische Retrievalmodelle
4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations
MehrDokumenten-Clustering. Norbert Fuhr
Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und
MehrInformation Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik
Rückblick Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Präzision und Ausbeute als elementare Gütemaße Zerlegung und Normalisierung
MehrKlassisches Information Retrieval Jan Schrader
Klassisches Information Retrieval 27.10.2011 Jan Schrader Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies
MehrInformation Retrieval. 3 Prinzipien des Information Retrieval. 3.1 Einführung. Historische Entwicklung von Information-Retrieval-Systemen
3 Prinzipien des Information Retrieval Einführung Information-Retrieval-Modelle Relevance Feedback Bewertung von Retrieval-Systemen Nutzerprofile Literaturempfehlungen Information Retrieval notwendig zur
Mehr... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
MehrInformation Retrieval
Information Retrieval Eine kurze Einführung von Ronny Berger 18. Juli 2002 Typeset by FoilTEX IR-Konzepte Definition von Information Retrieval: Gegenstand des Information-Retrieval ist die inhaltliche
MehrEvaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06
Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen
MehrEvaluation von IR-Systemen
Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrInformation Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
MehrPraxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A
Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)
Mehr5. Probabilistische Retrievalmodelle
5. Probabilistische Retrievalmodelle 1 5. Probabilistische Retrievalmodelle Norbert Fuhr Notationen 5. Probabilistische Retrievalmodelle 3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D
MehrInformation Retrieval und Multimedia Datenbanken 1
Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung 28.04.06 Multimedia-Datenbanken Persistente Speicherung von Mediendaten, z.b. Text-Dokumente Vektorgraphik,
MehrInformation Retrieval und Question Answering
und Question Answering Kai Kugler 19. November 2009 Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem
MehrErweitertes boolsches Retrieval
Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,
MehrClustern: Voraussetzungen
Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung
MehrNachteile Boolesches Retrieval
Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge
MehrSEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.
SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit
MehrKlassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)
Klassen von Retrieval-Modellen Boolesche und Vektorraum- Modelle Boolesche Modelle (Mengen-basiert) Erweitertes Boolesches Modell Vektorraummodelle (vector space) (statistisch-algebraischer Ansatz) Latente
MehrBoolesche- und Vektorraum- Modelle
Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
Mehr3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.
3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen
Mehr(Bamberg)
Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags
MehrT = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
MehrRetrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)
Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des
MehrInformation Retrieval
Information Retrieval 1 Information Retrieval Norbert Fuhr 13. Oktober 2011 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Daten Information Wissen 4 Dimensionen des IR 5 Rahmenarchitektur für IR-Systeme
MehrMultimedia-Datenbanken im SS 2010 Ähnlichkeitsmaße II
Multimedia-Datenbanken im SS 2010 Ähnlichkeitsmaße II Dr.-Ing. Marcin Grzegorzek 22.06.2010 Inhalte und Termine 1. Einführung in MMDB 1.1 Grundlegende Begriffe 1.2 Suche in einem MMDBS 1.3 MMDBMS-Anwendungen
MehrProbabilistische IR-Modelle
Kapitel 4 Probabilistische IR-Modelle 4.1 Einführung Ein wesentlicher Unterschied zwischen IR-Systemen und vielen anderen klassischen Informationssystemen besteht in der intrinsischen Unsicherheit des
MehrInformation-Retrieval: Evaluation
Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrVerteiltes Information Retrieval
Seminar Experimentielle Evaluierung im IR Verteiltes Information Retrieval Sascha Brink Sebastian Ruiling 20.12.2005 Universität Duisburg-Essen Agenda Motivation / Grundlagen CORI DTF Diskussion der Verfahren
MehrFederated Search: Integration von FAST DataSearch und Lucene
Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation
MehrSuchmaschinentechnologie
Modul: Studiengang: Bibliotheksinformatik Abschluss: Master of Science Modulverantwortliche/r: Sascha Szott & Frank Seeliger Semester: 2 Präsenzstunden: 50.0 Art der Lehrveranstaltung: Pflicht Dauer: 2
Mehr3. Evaluierung. Norbert Fuhr
3. Evaluierung Norbert Fuhr Perspektiven auf IR-Systeme Benutzer Käufer Manager Hersteller Entwickler... Fragestellungen an die Evaluierung Was kann ich ändern, um die Qualität eines Systems zu verbessern?
MehrLDA-based Document Model for Adhoc-Retrieval
Martin Luther Universität Halle-Wittenberg 30. März 2007 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter
MehrInformation Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
Mehr12. Vorlesung. Statistische Sprachmodelle für Information Retrieval
12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von
MehrMultimedia-Datenbanken im SS 2010 Einführung in MMDB
Multimedia-Datenbanken im SS 2010 Einführung in MMDB Dr.-Ing. Marcin Grzegorzek 27.04.2010 Ähnlichkeitssuche in Multimedia-Datenbanken 2/ 28 Inhalte und Termine 1. Einführung in MMDB 1.1 Grundlegende Begriffe
MehrInformation Retrieval
Information Retrieval Norbert Fuhr 12. April 2010 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Dimensionen des IR 4 Daten Information Wissen 5 Rahmenarchitektur für IR-Systeme IR in Beispielen IR-Aufgaben
MehrBLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen.
Eingangtest (anonym) BLATT 1 Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen. 1) Was ist ein Zeichensatz (character set) und was eine
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrUsing Sets of Feature Vectors for Similarity Search on Voxelized CAD Data
Diplomarbeit Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Stefan Brecheisen Aufgabensteller: Betreuer: Dank an: Prof. Dr. Hans-Peter Kriegel Martin Pfeifle Peer Kröger, Matthias
MehrSupport Vector Machines (SVM)
Universität Ulm 12. Juni 2007 Inhalt 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor- und Nachteile der SVM 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor-
MehrKapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme
Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert
MehrTechnische Universität München Zentrum Mathematik. Übungsblatt 7
Technische Universität München Zentrum Mathematik Mathematik (Elektrotechnik) Prof. Dr. Anusch Taraz Dr. Michael Ritter Übungsblatt 7 Hausaufgaben Aufgabe 7. Für n N ist die Matrix-Exponentialfunktion
MehrVorlesung Datenbanken II SS 2006
Vorlesung Datenbanken II SS 2006 1 Vorlesung Datenbanken II SS 2006 Sven Wachsmuth, Technische Fakultät, AG Angewandte Informatik Vorlesung Datenbanken II SS 2006 2 Suche in Bilddatenbanken Verschlagwortete
MehrInformation Retrieval
Ein Überblick Norbert Fuhr Universität Duisburg-Essen Vorlesung Information Engineering SS 2013 UNIVERSITÄT D U I S B U R G E S S E N Inhaltsverzeichnis 1 Einführung 2 Repräsentation von Textinhalten 3
MehrVorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht
MehrInformation Retrieval. Peter Kolb
Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation
MehrUniversität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme
Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar
MehrProbabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist
Rückblick Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal
MehrUnüberwachtes Lernen
Unüberwachtes Lernen Mustererkennung und Klassifikation, Vorlesung No. 12 M. O. Franz 17.01.2008 Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering Übersicht
MehrGrundbegriffe des Information Retrieval
Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrSuchmaschinen. Anwendung RN Semester 7. Christian Koczur
Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe
Mehr3. Analyse der Kamerabewegung Video - Inhaltsanalyse
3. Analyse der Kamerabewegung Video - Inhaltsanalyse Stephan Kopf Bewegungen in Videos Objektbewegungen (object motion) Kameraoperationen bzw. Kamerabewegungen (camera motion) Semantische Informationen
Mehr1 Boolesches Retrieval (2)
2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des
MehrLineares Gleichungssystem - Vertiefung
Lineares Gleichungssystem - Vertiefung Die Lösung Linearer Gleichungssysteme ist das "Gauß'sche Eliminationsverfahren" gut geeignet - schon erklärt unter Z02. Alternativ kann mit einem Matrixformalismus
MehrLineare Gleichungssysteme
Kapitel 6 Lineare Gleichungssysteme 6. Gaußalgorithmus Aufgabe 6. : Untersuchen Sie die folgenden linearen Gleichungssysteme mit dem Gaußalgorithmus auf Lösbarkeit und bestimmen Sie jeweils die Lösungsmenge.
MehrImplementierung: Dokumentclustering
Implementierung: Dokumentclustering Max Jakob Florian Winkelmeier Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik HS Information Retrieval Dozentin: Dr. Karin Haenelt Wintersemester
MehrVolltextsuche und Text Mining
Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval
MehrStephan Filipczyk. Relevance Feedback. Seminar Bridging the Semantic Gap
Stephan Filipczyk Relevance Feedback Seminar Bridging the Semantic Gap Übersicht Motivation Komponenten und Funktionsweise Ausprägungen Voraussetzungen und Herausforderungen Fragen Seminar "Bridging the
MehrEinführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr
Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen
MehrVektoren - Die Basis
Vektoren - Die Basis Motivation (Als Vereinfachung - der Schreibarbeit - wählen wir meistens Vektoren in R 2.) Eigentlich ist ja Alles klar! Für einen Vektor a gilt a = ( a x a y )! Am Ende werden wir
MehrDuplikatanalyse. Ein Vortrag von. Susanne O'Shaughnessy und Michaela Geierhos
Duplikatanalyse Ein Vortrag von Susanne O'Shaughnessy und Michaela Geierhos 13.07.2005 Duplikaten Elimination Problem: Mit dem explosionsartigen Anwachsen des WWW ist eine riesige Dokumentenmenge zugänglich.
Mehr1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3
Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................
MehrEinleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.
Anwendung Input: Query-Bild, Ergebnis: Menge ähnlicher Bilder. Kapitel 8: Ähnlichkeitsanfragen und ihre effiziente Evaluierung Wie zu finden? Corbis, NASA: EOS Bilddatenbank Folie Folie 2 Ähnlichkeitssuche
MehrInternet-Suchmaschinen Evaluierung
Internet-Suchmaschinen Evaluierung Norbert Fuhr 1 / 83 Vorüberlegungen Warum evaluieren? Anforderungen an Evaluierungen Qualitätskriterien Vorüberlegungen Warum evaluieren? Perspektiven auf IR-Systeme
MehrAnwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
MehrWie liest man Konfidenzintervalle? Teil I. Premiu m
Wie liest man Konfidenzintervalle? Teil I Premiu m Was sind Konfidenzintervalle? Ein Konfidenzintervall (KI) ist ein Maß für die Unsicherheit bezüglich einer Schätzung eines Effekts. Es ist ein Intervall
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrHauptseminar KDD SS 2002
Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung
MehrLineare Algebra für D-ITET, D-MATL, RW. Beispiellösung für Serie 6. Aufgabe 6.1. Dr. V. Gradinaru K. Imeri. Herbstsemester 2018.
Dr. V. Gradinaru K. Imeri Herbstsemester 8 Lineare Algebra für D-ITET, D-MATL, RW ETH Zürich D-MATH Beispiellösung für Serie 6 Aufgabe 6. Multiple Choice: Online abzugeben. 6.a) (i) Welche der folgenden
MehrUniversität Augsburg, Institut für Informatik Sommersemester 2009 Prof. Dr. Werner Kießling 16. Juli Semesterklausur
Universität Augsburg, Institut für Informatik Sommersemester 2009 Prof. Dr. Werner Kießling 16. Juli 2009 Dr. A. Huhn, M. Endres Suchmaschinen Semesterklausur Hinweise: Die Bearbeitungszeit beträgt 90
Mehr3 Prinzipien des Information Retrieval
3 Prinzipien des Information Retrieval Einführung Information-Retrieval-Modelle Relevance Feedback Bewertung von Retrieval-Systemen Nutzerprofile Literaturempfehlungen Information Retrieval notwendig zur
MehrSemestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2008 Termin: 4. 7.
Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2008 Termin: 4. 7. 2008 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....
MehrSPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN
SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie
MehrDidaktik der Analysis und der Analytischen Geometrie/ Linearen Algebra
A. Filler[-3mm] Didaktik der Analysis und der Analytischen Geometrie/ Linearen Algebra, Teil 8 Folie 1 /27 Didaktik der Analysis und der Analytischen Geometrie/ Linearen Algebra 8. Das Skalarprodukt, metrische
MehrInstitut für Analysis und Scientific Computing Dr. E. Weinmüller SS 2015
Institut für Analysis und Scientific Computing TU Wien Dr. E. Weinmüller SS 205 A N A L Y S I S I I F Ü R T P H, (0.09) Test 2 Gruppe (DI, 6.6.205) (mit Lösung ) Sie können den Taschenrechner verwenden.
MehrImplementierung eines Vektormodells
Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014
Mehr