Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
|
|
- Heike Meissner
- vor 6 Jahren
- Abrufe
Transkript
1 3. IR-Modelle
2 Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können eliminiert werden Stamm- und Grundformreduktion führt Beugungen des gleichen Wortes auf kanonische Form zurück Editierdistanz nach Levenshtein misst Ähnlichkeit als Anzahl benötigter Editieroperationen Soundex vereinheitlicht Wörter mit ähnlicher Aussprache 2
3 Motivation Informationsbedürfnis Nutzer IR-Modell Ergebnis: Anfrage Dokumentensammlung 3
4 Inhalt 3.1 Boole sches Retrieval 3.2 Vektorraummodell 3.3 Probabilistisches IR 3.4 Statistical Language Models 3.5 Latent Semantic Indexing 3.6 Relevance Feedback 3.7 Query Expansion 4
5 3.1 Boole sches Retrieval Dokumente werden als Mengen von Termen repräsentiert (äquivalent: Belegung einer Boole schen Variable je Term) Anfragen sind Boole sche Ausdrücke zusammengesetzt aus Termen und Operatoren AND ( ), OR ( ) und NOT ( ) gothenburg AND (amusement OR shopping) AND NOT museum Eindeutige Semantik: Dokument erfüllt Anfrage oder nicht 5
6 Term-Dokument-Matrix Dokumentensammlung als Term-Dokument-Matrix d 1 d 2 d 3 d 4 d 5 d 6 amusement park gothenburg sweden museum shopping liseberg art Bei Boole schem Retrieval nur Werte 0 und 1 6
7 Boole sches Retrieval (Immer noch) weit verbreitet in der Praxis z.b. Bibliotheken 7
8 Boole sches Retrieval Patentrecherche Boole sches Retrieval auch unterstützt von modernen Suchmaschinen (z.b. Google und Bing) 8
9 Kritik und Erweiterungen Fehlende Rangfolge (ranking) der Treffer als Nachteil Boole sches Retrieval kann erweitert werden durch Operatoren basierend auf Termpositionen (z.b. NEAR) Strukturierung der Dokumente (z.b. Titel, Autoren, Inhalt) erlaubt genauere Spezifikation des Informationsbedürfnisses (z.b. author:knuth AND titel:typsetting) kann zur Bestimmung einer Rangfolge verwendet werden (z.b. höheres Gewicht für Treffer im Titel) Eliminierung von Stoppwörtern und Stammformreduktion 9
10 3.2 Vektorraummodell Idee: Stelle Anfrage und Dokumente als Vektoren dar; verwende Distanz/Ähnlichkeit zur Anfrage, um Rangfolge der Dokumente zu bestimmen Historischer Ursprung: SMART Projekt an der Cornell University in den 1960ern unter der Leitung von Gerard Salton ACM SIGIR (Fachorganisation für IR) verleiht alle drei Jahre den Gerard Salton Award an verdiente Forscher im Bereich IR Quelle: 10
11 Mathematische Grundlagen: Vektorrechnung Vektoren bezeichnen Elemente eines mehrdimensionalen Raumes z.b. der euklidischen Ebene des k-dimensionalen Raumes v = 5 v1 v 2 6 œ R 2 v = S W U v 1. v k T R k X V œ R k R 2 oder This image cannot currently be displayed Vektoren lassen sich addieren S T S T S T v 1 u 1 v 1 + u 1 W X W X W X v + ų = U V + U V = U. V. v k. u k v k + u k
12 Mathematische Grundlagen: Vektorrechnung Vektoren lassen sich mit Skalar (reeller Zahl) multiplizieren S T S T v 1 v 1 W X W X v = U V = U. V v k v k 1 2 Vektoren lassen sich multiplizieren S T S T v 1 u 1 W X W X kÿ v ų = U. V U. V = (v i u i ) v k u i=1 k
13 Mathematische Grundlagen: Vektorrechnung Vektoren haben eine Länge S T v 1 ˆ W X ıÿ v = U. V = Ù k vi 2 - v k - i= Ô Kosinus des Zwischenwinkels zweier Vektoren cos(ų, v) = ų v ų v = ų ų v v = Ò qk q k i=1 (u i v i ) Ò qk i=1 v2 i i=1 u2 i 13
14 Dokumente und Anfragen als Vektoren Dokumente und Anfragen als Vektoren in Vektorraum mit einer Dimension pro bekanntem Term q d 1 Idee 1: Binäre Termgewichtung d 2 Vektorkomponente ist 1, wenn der Term vorkommt ansonsten ist der Wert der Vektorkomponente 0 wird oft für Anfrage verwendet Beobachtung: Keine Rolle spielt wie oft ein Term in einem Dokument vorkommt wie viele Dokumente einen Term enthalten 14
15 Termgewichtung mittels tf.idf Idee 2: Termgewichtung mittels tf.idf Termhäufigkeit (term frequency) des Terms v im Dokument d tf (v, d) Dokumentenhäufigkeit (document frequency) des Terms v df (v) Inverse Dokumentenhäufigkeit (inverse document frequency) des Terms v mit D als Kardinalität der Dokumentenmenge D idf (v) = log D df (v) 15
16 Logarithmische Dämpfung idf ohne Dämpfung mit Dämpfung D = df Basis des Logarithmus (z.b. 2 oder 10) spielt keine Rolle 16
17 Termgewichtung mittels tf.idf am Beispiel d 1 d 2 d 3 d 4 d 5 d 6 amusement park gothenburg sweden museum shopping liseberg art df (v) idf (v) log(6/3) = 1.00 log(6/2) = 1.58 log(6/5) = 0.26 log(6/5) = 0.26 log(6/3) = 1.00 log(6/1) = 2.58 log(6/3) = 1.00 log(6/2) =
18 Termgewichtung mittels tf.idf am Beispiel d 1 d2 d3 d4 d5 d6 amusement park gothenburg sweden museum shopping 2.58 liseberg art
19 Euklidische Distanz Wie misst man Distanz/Ähnlichkeit zweier Vektoren? Idee 1: Euklidische Distanz q d(q, d) = ˆ ıÿ Ù k (q i d i ) 2 i=1 d Problem: Benachteiligung umfangreicher Dokumente, selbst wenn sie die Terme aus der Anfrage enthalten q d 19
20 Kosinusähnlichkeit Idee 2: Kosinusähnlichkeit misst den Kosinus des Winkels zwischen dem Anfragevektor und einem Dokumentvektor sim(q, d) = q d q d q k i=1 = (q i d i ) Ò qk Ò i=1 q qk i 2 i=1 d 2 i q d Beobachtung: Dokumentvektor hat Ähnlichkeit 1 zum Anfragevektor, wenn er in die gleiche Richtung zeigt, d.h. genau die Terme der Anfrage enthält 20
21 Vektorraummodell am Beispiel d 1 d2 d3 d4 d5 d6 amusement park gothenburg sweden museum shopping 2.58 liseberg art q Betrachte Anfrage amusement park gothenburg 21
22 Vektorraummodell am Beispiel d 1 d2 d3 d4 d5 d6 amusement park gothenburg sweden museum shopping 2.58 liseberg art q cos( q, d 1 )= Ô Ô
23 Vektorraummodell am Beispiel d 1 d2 d3 d4 d5 d6 amusement park gothenburg sweden museum shopping 2.58 liseberg art q cos( q, d i ) Dokumente werden also in der Rangfolge d 2, d 5, d 1, d 4, d 6, d 3 zurückgeliefert 23
24 Vektorraummodell in der Praxis Effizientere Berechnung der Kosinusähnlichkeit durch normalisierte Speicherung der Dokumentvektoren (dazu später mehr in Kapitel 3) Vereinfachte Implementierung der Kosinusähnlichkeit sim(q, d) = ÿ v œ q tf (v, d) idf (v) mit q und d als Anfrage und Dokument als Multimengen Zahlreiche Variationen der tf.idf-termgewichtung z.b. mit logarithmischer Dämpfung der Termhäufigkeit 24
25 Zusammenfassung Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar tf.idf-termgewichtung berücksichtigt Termhäufigkeit im Dokument und Dokumentenhäufigkeit in Dokumentensammlung Bestimmung einer Rangfolge gemäß Kosinusähnlichkeit zwischen Anfrage- und Dokumentvektor 25
26 Literatur [1] C. D. Manning, P. Raghavan, H. Schütze: Introduction to Information Retrieval, Cambridge University Press, 2008 (Kapitel 6) 26
Information Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
MehrRetrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)
Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des
MehrT = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
MehrInformation-Retrieval: Vektorraum-Modell
Information-Retrieval: Vektorraum-Modell Claes Neuefeind Fabian Steeg 03. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
Mehr3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.
3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
Mehr4. Nicht-Probabilistische Retrievalmodelle
4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations
Mehr1 Boolesches Retrieval (2)
2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des
MehrSuchmaschinenalgorithmen. Vortrag von: Thomas Müller
Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung
MehrÜbungsaufgaben mit Lösungsvorschlägen
Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie
MehrIndexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.
Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:
MehrÜbungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe
Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie
MehrHS Information Retrieval
HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:
MehrDatenbanken und Informationssysteme
Datenbanken und Informationssysteme Information Retrieval: Konzepte und Beispiele Burkhardt Renz Fachbereich MNI TH Mittelhessen Wintersemester 2015/16 Übersicht Konzepte des Information Retrieval Architektur
MehrAnwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke
Anwendungen der Hauptkomponentenanalyse Volker Tresp vertreten durch Florian Steinke 1 Dimensionsreduktion für Supervised Learning 2 Beispiel: Kaufentscheidung 3 Verbesserte Abstandsmaße durch Hauptkomponentenanalyse
Mehr12. Vorlesung. Statistische Sprachmodelle für Information Retrieval
12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von
MehrSuchmaschinen. Anwendung RN Semester 7. Christian Koczur
Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe
Mehr1. Vorlesung,
1. Vorlesung, 16.10.2006 Einführung und Motivation, Beispiel Information versus Daten Grundlegende Konzepte Aufgaben des Anwenders Logische Sicht auf Dokumente Dokumentvorverarbeitung Dokumentsuche mit
MehrPrototypische Komponenten eines Information Retrieval Systems: Vektormodell
Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003
MehrSUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008
SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische
MehrMultimedia Retrieval im WS 2011/2012
Multimedia Retrieval im WS 2011/2012 2. Prinzipien des Information Retrieval Prof. Dr.-Ing. Marcin Grzegorzek Juniorprofessur für Mustererkennung Institut für Bildinformatik im Department ETI Fakultät
MehrInformation Retrieval
Information Retrieval Ferdinand Hofherr 17. Mai 2005 Zusammenfassung Information Retrieval spielt in vielen Bereichen unseres Lebens eine wichtige Rolle. Wir kommen damit zum Beispiel in Berührung, wenn
Mehrtf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009
tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
MehrWMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
MehrVektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig
Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model
MehrÄhnlichkeitssuche auf XML-Daten
Ähnlichkeitssuche auf XML-Daten Christine Lehmacher Gabriele Schlipköther Übersicht Information Retrieval Vektorraummodell Gewichtung Ähnlichkeitsfunktionen Ähnlichkeitssuche Definition, Anforderungen
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
Mehr2 Volltext-Suchmaschinen
2 Volltext-Suchmaschinen Volltext-Suchmaschinen werden vor allem für die Suche im Internet benutzt, jedoch gibt es auch Erweiterungen (Data Cartridge, Oracle) um Volltextsuche bei SQL-Suchmaschinen wie
MehrLänge eines Vektors und Abstand von zwei Punkten 2. 4 = 6. Skalarprodukt und Winkel zwischen Vektoren
Länge eines Vektors und Abstand von zwei Punkten Aufgabe Bestimme die Länge des Vektors x. Die Länge beträgt: x ( ) =. Skalarprodukt und Winkel zwischen Vektoren Aufgabe Es sind die Eckpunkte A(; ), B(
MehrAuf dem Weg zu Website-Fingerprinting in der Praxis
Auf dem Weg zu Website-Fingerprinting in der Praxis Identifizierung von Webseiten mit dem multinomialen Naïve-Bayes-Klassifizierer Dominik Herrmann Lehrstuhl Management der Informationssicherheit Universität
MehrExposé zur Studienarbeit. 04. August 2010
Exposé zur Studienarbeit Relevanzranking in Lucene im biomedizinischen Kontext Christoph Jacob Betreuer: Phillipe Thomas, Prof. Dr. Ulf Leser 04. August 2010 1. Motivation Sucht und ihr werdet finden dieses
MehrTexttechnologien: Latent Semantic Indexing
Texttechnologien: Latent Semantic Indexing Inhaltsbasierte Suche in P2P-Netzen Texttechnologien 1 Inhaltsbasierte Suche in P2P-Netzen 1 Überblick Motivation Verfahren Eigenwertzerlegungen Singulärwertzerlegungen
MehrTextmining Clustering von Dokumenten
Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist
MehrData- und Text Mining. 2014 Prof. A. Müller, PMP FH Kaiserslautern
Data- und Text Mining 2014 FH Kaiserslautern Text Mining - Grundlagen Indexierung Data-Structure inverted file Algorithmen Statistische Indexierung Zipf sche Gesetz Termhäufigkeiten Vektor-basierte Suche
MehrProf. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17
Seminar im Modul M-GSW-09 WiSe 2016/17 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität
MehrRahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen.
Rahmenarchitektur für IR-Systeme Internet-Suchmaschinen Nicht-Prbabilistische Retrievalmdelle Infrmatins bedürfnis Frage Repräsentatin Evaluierung Frage Beschreibung Nrbert Fuhr Wissensrepräsentatin Vergleich
MehrVuFind Ein Baustein beim Finden, Entdecken & Bekommen. Gerald Steilen, 6. Mai 2015
VuFind Ein Baustein beim Finden, Entdecken & Bekommen Gerald Steilen, 6. Mai 2015 Perceptions of Libraries and Information Resources. 1 Wo beginnt die Suche? Perceptions of Libraries and Information Resources.
MehrInverted Files for Text Search Engines
Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung
MehrVektoren, Vektorräume
Vektoren, Vektorräume Roman Wienands Sommersemester 2010 Mathematisches Institut der Universität zu Köln Roman Wienands (Universität zu Köln) Mathematik II für Studierende der Chemie Sommersemester 2010
MehrSpektrale Bloom-Filter für Peer-to-Peer Information Retrieval
Spektrale Bloom-Filter für Peer-to-Peer Information Retrieval Martin Eisenhardt, Wolfgang Müller, Andreas Henrich LS AI 1, Universität Bayreuth martin.eisenhardt@uni-bayreuth.de Abstract: Spektrale Bloomfilter
MehrOnline-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015
Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz-InsJtut für SozialwissenschaNen
MehrOutline. 1 Vektoren im Raum. 2 Komponenten und Koordinaten. 3 Skalarprodukt. 4 Vektorprodukt. 5 Analytische Geometrie. 6 Lineare Räume, Gruppentheorie
Outline 1 Vektoren im Raum 2 Komponenten und Koordinaten 3 Skalarprodukt 4 Vektorprodukt 5 Analytische Geometrie 6 Lineare Räume, Gruppentheorie Roman Wienands (Universität zu Köln) Mathematik II für Studierende
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrClusteranalyse von Nachrichtenartikeln
Köln, den 7. Oktober 2011 Studiengang Informationsverarbeitung Sommersemester 2011 Sprachliche Informationsverarbeitung Prose i ar: Co puterli guistik II bei Jürgen Hermes M.A. Clusteranalyse von Nachrichtenartikeln
MehrReduced-Rank Least Squares Modelle
16.12.2008 Wiederholung Gegeben: Matrix A m n Paar Rechter Eigenvektor x, Eigenwert λ: A x = λ x mit x R n \ 0, λ N Paar Linker Eigenvektor y, Eigenwert λ: y T A = λ y T Singulärwertzerlegung (SVD): A
MehrEuklidische und unitäre Vektorräume
Kapitel 7 Euklidische und unitäre Vektorräume In diesem Abschnitt ist der Körper K stets R oder C. 7.1 Definitionen, Orthonormalbasen Definition 7.1.1 Sei K = R oder C, und sei V ein K-Vektorraum. Ein
MehrLineare Algebra für D-ITET, D-MATL, RW. Beispiellösung für Serie 10. Aufgabe ETH Zürich D-MATH. Herbstsemester Dr. V. Gradinaru D.
Dr. V. Gradinaru D. Devaud Herbstsemester 5 Lineare Algebra für D-ITET, D-MATL, RW ETH Zürich D-MATH Beispiellösung für Serie Aufgabe..a Bezüglich des euklidischen Skalarprodukts in R ist die Orthogonalprojektion
MehrGrundbegriffe des Information Retrieval
Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,
Mehr5. Suchmaschinen Herausforderungen beim Web Information Retrieval. 5. Suchmaschinen. Herausforderungen beim Web Information Retrieval
5. Suchmaschinen Herausforderungen beim Web Information Retrieval 5. Suchmaschinen Herausforderungen beim Web Information Retrieval Architektur von Suchmaschinen Spezielle Bewertungsfunktionen Information
MehrDokumenten-Clustering. Norbert Fuhr
Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und
MehrSprachstatistik: Das Zipf sche Gesetz
Sprachstatistik: Das Zipf sche Gesetz Korpus-Workshop Thema Korpus-Statistik Thomas Wittig Universität Leipzig Institut für Informatik wittig@uni-leipzig.de Principle of Least Effort 2 George K. Zipf:
MehrInformation Retrieval und Multimedia Datenbanken 1
Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung 12.05.06 Vektorraummodell Bekanntestes IR Modell Grundidee: Lineare Algebra Dokumente und Anfragen
MehrKapitel 2: Mathematische Grundlagen
[ Computeranimation ] Kapitel 2: Mathematische Grundlagen Prof. Dr. Stefan M. Grünvogel stefan.gruenvogel@fh-koeln.de Institut für Medien- und Phototechnik Fachhochschule Köln 2. Mathematische Grundlagen
MehrGesucht und Gefunden: Die Funktionsweise einer Suchmaschine
Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine Prof. Dr. Peter Becker FH Bonn-Rhein-Sieg Fachbereich Informatik peter.becker@fh-bonn-rhein-sieg.de Vortrag im Rahmen des Studieninformationstags
MehrWelche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?
Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte
MehrSeminar Datenbanksysteme
Seminar Datenbanksysteme Recommender System mit Text Analysis für verbesserte Geo Discovery Eine Präsentation von Fabian Senn Inhaltsverzeichnis Geodaten Geometadaten Geo Discovery Recommendation System
MehrWas sind Vektoren? Wozu braucht man sie?
Was sind Vektoren? Wozu braucht man sie? Franz Pauer Institut für Mathematik, Universität Innsbruck, Technikerstr. 25, A-6020 Innsbruck, Österreich. Franz.Pauer@uibk.ac.at 30. März 2005 1 Einleitung Dieser
MehrSemestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.
Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....
MehrDEUTSCHE SCHULE MONTEVIDEO BIKULTURELLES DEUTSCH-URUGUAYISCHES ABITUR ( AUF SPANISCH )
Grundlegende Bemerkungen : Der Begriff des Vektors wurde in den vergangenen Jahren im Geometrieunterricht eingeführt und das mathematische Modell des Vektors wurde vor allem auch im Physikunterricht schon
MehrMathematische Erfrischungen III - Vektoren und Matrizen
Signalverarbeitung und Musikalische Akustik - MuWi UHH WS 06/07 Mathematische Erfrischungen III - Vektoren und Matrizen Universität Hamburg Vektoren entstanden aus dem Wunsch, u.a. Bewegungen, Verschiebungen
MehrInformation Retrieval und Multimedia Datenbanken 1
Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung 28.04.06 Multimedia-Datenbanken Persistente Speicherung von Mediendaten, z.b. Text-Dokumente Vektorgraphik,
MehrAutomatische Ontologie-Optimierung in Ontologie-basierten Systemen
Automatische Ontologie-Optimierung in Ontologie-basierten Systemen Diplomarbeit am Fachgebiet Agententechnologien in betrieblichen Anwendungen und der Telekommunikation (AOT) Prof. Dr.-Ing. habil. Sahin
Mehr00. Einiges zum Vektorraum R n
00. Einiges zum Vektorraum R n In diesem einleitenden Kapitel werden die in der LV Einführung in die mathematischen Methoden erwähnten Konzepte über Vektoren (im R 2 und R 3 ) im Rahmen des n-dimensionalen
MehrAddition, Subtraktion und Multiplikation von komplexen Zahlen z 1 = (a 1, b 1 ) und z 2 = (a 2, b 2 ):
Komplexe Zahlen Definition 1. Eine komplexe Zahl z ist ein geordnetes Paar reeller Zahlen (a, b). Wir nennen a den Realteil von z und b den Imaginärteil von z, geschrieben a = Re z, b = Im z. Komplexe
Mehr6. Gleichungen und Ungleichungen
6. Gleichungen und Ungleichungen 6.Z Zusammenfassung Eine Gleichung entsteht, wenn zwei Terme unter Verwendung des Gleichheitszeichens " = " gleichgesetzt werden: T 1 = T 2. Eine Gleichung ohne Variablen
MehrProgrammcode muss in englischer Sprache verfasst sein. Achten Sie auf fehlerfrei kompilierenden Programmcode 1
Programmieren Sommersemester 2014 Forschungsgruppe Verikation trit Algorithmik http://baldur.iti.kit.edu/programmieren Dr. Carsten Sinz Markus Iser Abschlussaufgabe 1 Ausgabe: 04.08.2014 13:00 Abgabe:
MehrLineare Algebra. Grundlagen der Vektorrechnung. fsg Verlag
Rolf Stahlberger Alexander Golfmann Lineare Algebra Grundlagen der Vektorrechnung fsg Verlag Impressum Herausgeber: FSG Verlag Alexander Golfmann Augustenstr. 58 80333 München info@fsg-verlag.de www.fsg-verlag.de
MehrJürgen Roth Didaktik der Linearen Algebra und Analytischen Geometrie
Jürgen Roth Didaktik der Linearen Algebra und Analytischen Geometrie Modul 12a: Fachdidaktische Bereiche juergen-roth.de/lehre/did_linalg_anageo/ Kapitel 5: Skalarprodukt 5.1 Inhalte Didaktik der Linearen
MehrInformation Retrieval [IR 4]
Information Retrieval [IR 4] Übungen und Wiederholungsfragen zur Prüfungsvorbereitung Winfried Gödert / Klaus Lepsky 21. Oktober 2015 Institut für Informationswissenschaft Fachhochschule Köln Claudiusstraße
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen SVM Textkategorisierung Katharina Morik, Claus Weihs LS 8 Informatik 24.5.2011 1 von 46 Gliederung LS 8 Informatik 1 Web Mining Information Retrieval 2 Textklassifikation
MehrText Mining. Peter Kolb 25.6.2012
Text Mining Peter Kolb 25.6.2012 Übersicht Big Data Information Retrieval vs. Text Mining Anwendungen Dokumentenähnlichkeit Termähnlichkeit Merkmalsauswahl und -Gewichtung Kategorisierung Clustering Big
MehrIndustrie- und Handelskammer Stuttgart
Industrie- und Handelskammer Stuttgart SUCHMASCHINEN-OPTIMIERUNG die vorderen Plätze bei Google, Yahoo & Co 1. Über Beyond Media 2. Erste Schritte 3. freundliche 4. Arbeitsweise 5. Bewertungsmethoden 6.
MehrAlles nur Google? Das Innenleben der Suchmaschinen
Alles nur Google? Das Innenleben der Suchmaschinen Prof. Dr. Klaus Meyer-Wegener Friedrich-Alexander-Universität Technische Fakultät Institut für Informatik 1. Das World-wide Web (WWW) oft auch "Internet"
MehrKapitel 23 Strukturinformationen in Dokumenten. HHU Düsseldorf, WS 2008/09 Information Retrieval 368
Kapitel 23 Strukturinformationen in Dokumenten HHU Düsseldorf, WS 2008/09 Information Retrieval 368 Erkennung von Strukturinformationen in Web- Dokumenten Aufgaben: Kreation von Metadaten optimal: Eintragen
MehrWas ist ein Skalarprodukt und wozu wird es verwendet?
Was ist ein Skalarprodukt und wozu wird es verwendet? FRANZ PAUER UND FLORIAN STAMPFER (UNIVERSITÄT INNSBRUCK) 1. Einleitung Es kommt selten vor, dass ein mathematischer Fachbegriff den Weg in die Tagespresse
MehrText-Mining in Adaptive READ
Text-Mining in Adaptive READ Stefan Agne, Armin Hust, Stefan Klink, Markus Junker, Andreas Dengel Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI)GmbH Christoph Altenhofen Institut für Arbeitswissenschaft
MehrSpektralzerlegung des Laplace-Operators auf Liegruppen und kompakten symmetrischen Räumen
Spektralzerlegung des Laplace-Operators auf Liegruppen und kompakten symmetrischen Räumen Anna Engels Seminar Riemannsche Geometrie und Spektraltheorie SS 003 Zusammenfassung Ich will erklären, wie man
MehrLineare Algebra I (WS 13/14)
Lineare Algebra I (WS 13/14) Alexander Lytchak Nach einer Vorlage von Bernhard Hanke 29.11.2013 Alexander Lytchak 1 / 13 Wiederholung Der Rang einer linearen Abbildung ist gleich dem Spaltenrang der darstellenden
MehrInformation Retrieval
Information Retrieval Bisher: Datenbankabfrage mit Hilfe von SQL in relationalen Datenbanken. Die Informationen liegen geordnet in Tabellen -> exakte Ergebnisse Neu: Die Informationen liegen in Datensammlungen
MehrPersonalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.
Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen
MehrLineare Gleichungssysteme
Christian Serpé Universität Münster 14. September 2011 Christian Serpé (Universität Münster) 14. September 2011 1 / 56 Gliederung 1 Motivation Beispiele Allgemeines Vorgehen 2 Der Vektorraum R n 3 Lineare
MehrWissensrepräsentation
Wissensrepräsentation Vorlesung Sommersemester 2008 9. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU Statistische Verfahren der KI (II) Klassifizieren von Dokumenten Informationsbeschaffung
MehrTag-basierte Ähnlichkeitsbestimmung bei ARTigo
Tag-basierte Ähnlichkeitsbestimmung bei ARTigo Crowdsourcing, Swarm Intelligence, Data Mining Referentin: Elena Levushkina Centrum für Informations- und Sprachverarbeitung ARTigo Online-Spiel zur Verschlagwortung
MehrText- und Datamining
Text- und Datamining Verwaltungtechnisches und Themenübersicht Jan Schrader, Morgan Harvey, Martin Hacker .@cs.fau.de Organisatorisches Folien eine Woche vor Präsentation abgeben (per Email)
MehrMarkus' Formelsammlung für die Vektorgeometrie
Markus' Formelsammlung für die Vektorgeometrie Markus Dangl.4. Zusammenfassung Dieses Dokument soll eine Übersicht über die Vektorgeometrie für die Oberstufe am Gymnasium geben. Ich versuche hier möglichst
MehrLineare Gleichungssysteme
Poelchau-Oberschule Berlin A. Mentzendorff September 2007 Lineare Gleichungssysteme Inhaltsverzeichnis 1 Grundlagen 2 2 Das Lösungsverfahren von Gauß 4 3 Kurzschreibweise und Zeilensummenkontrolle 6 4
MehrText-Mining: Einführung
Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:
MehrInformation Retrieval und Information Extraction
Information Retrieval und Information Extraction ao.prof. Harald Trost Kontakt und Information Harald Trost Adresse: Institut für Medizinische Kybernetik und Artificial Intelligence, Freyung 6, Stiege
Mehr1 Vektoren, Vektorräume, Abstände: 2D
Vektoren, Vektorräume, Astände: D Definition: Die Menge aller (geordneten Paare reeller Zahlen (oder allgemeiner: Elemente eines elieigen Körpers, als Spalten geschrieen, ezeichnen wir als Vektoren: R
MehrDigitale Bibliotheken. Informationssuche, Zugriff und Verbreitung
Digitale Bibliotheken Informationssuche, Zugriff und Verbreitung Gliederung Einführung Informationssuche Problemstellung Boolesche Suche Vektorraumsuche Stemming Multilinguale Suche Fuzzy Suche Semantische
MehrSeminar 3-D Grafik Mathematische Grundlagen, Räume, Koordinatensysteme, Projektionen. Hermann Schwarz Marko Pilop
Seminar 3-D Grafik Mathematische Grundlagen, Räume, Koordinatensysteme, Projektionen Hermann Schwarz Marko Pilop 2003-11-20 http://www.informatik.hu-berlin.de/~pilop/3d_basics.pdf {hschwarz pilop}@informatik.hu-berlin.de
MehrKomplexe Zahlen und konforme Abbildungen
Kapitel 1 Komplexe Zahlen und konforme Abbildungen 1.0 Geometrie der komplexen Zahlen Die Menge C der komplexen Zahlen, lässt sich mithilfe der bijektiven Abbildung C := {x + iy : x,y R}, C z = x + iy
MehrTextmining Klassifikation von Texten Teil 1: Naive Bayes
Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive
Mehr1 ALLGEMEINE HINWEISE Das Fach Mathematik für Wirtschaftswissenschaftler Bisheriger Aufbau der Klausur...
Grundlagen Mathe V Inhaltsverzeichnis 1 ALLGEMEINE HINWEISE... 1-1 1.1 Das Fach Mathematik für Wirtschaftswissenschaftler... 1-1 1.2 Bisheriger Aufbau der Klausur... 1-1 1.3 Zugelassene Hilfsmittel und
MehrFormale Grundlagen 2008W. Vorlesung im 2008S Institut für Algebra Johannes Kepler Universität Linz
Formale Grundlagen Institut für Algebra Johannes Kepler Universität Linz Vorlesung im 2008S http://www.algebra.uni-linz.ac.at/students/win/fg Inhalt Vektoren in der Ebene Zwei Punkten P, Q in der Ebene
MehrWeb Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion
Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische
MehrInformationsverwaltung als selbstorganisierendes
Informationsverwaltung als selbstorganisierendes und kontext-basiertes System Kerstin Schmidt, Competence Center Wirtschaftsinformatik, Hochschule München Prof. Dr. Peter Mandl, Competence Center Wirtschaftsinformatik,
Mehr