Kapitel IR:III (Fortsetzung)
|
|
|
- Heinz Brandt
- vor 8 Jahren
- Abrufe
Transkript
1 Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches Modell IR:III-19 Retrieval Models STEIN
2 Klassische Retrieval-Modelle Taxonomie von Retrieval-Modellen unmittelbare Verwendung von Dokumenttermen Bool'sches Model Fuzzy-Set-Modell Vektorraummodell probabilistische Modelle (BIR, NBIR, Poisson, etc.) Retrieval- Modell verborgene Variablen, Konzepte algebraisches Modell Inferenznetzwerkmodelle generative Sprachmodelle (statistische Sprachmodelle) Reihenfolge-, Strukturinformation Suffix-Modell Textstrukturmodelle spezielle linguistische Merkmale Wortklassenmodelle Prinzip, Paradigma, linguistische Theorie IR:III-20 Retrieval Models STEIN
3 Klassische Retrieval-Modelle Die klassischen Retrieval-Modelle abstrahieren ein Dokument d D zu einer unstrukturierten Menge von Indextermen, die sich quasi unmittelbar und automatisch aus d gewinnen lassen. Die Dokumentrepräsentation d eines Dokumentes d besteht aus gewichteten Indextermen, die aus d stammen. Unterscheidung der klassischen Retrieval-Modelle: 1. Art und Weise, wie sich Gewichte w i für die Indexterme t i berechnen. 2. Art und Weise, wie formalisierte Anfragen q konstruierbar sind. 3. Art und Weise, wie sich die Retrieval-Funktion ρ R (q, d) berechnet. 4. Art und Weise, wie die Menge relevanter Dokumente R konstruiert wird. IR:III-21 Retrieval Models STEIN
4 Bool sches Modell Dokumentmodell D, Q, ρ R [allgemeines Dokumentmodell] Dokumentrepräsentationen D. Typischerweise bilden die Nomen eines Korpus in ihrer Grundform die Menge der Indexterme T = {t 1,..., t m }. Die Repräsentation d eines Dokumentes d ist eine Abbildung von T nach {0, 1}, wobei d(w) = 1 bzw. d(w) = 0 als Term in d vorhanden bzw. nicht vorhanden interpretiert wird. Formalisierte Anfragenmenge Q. Eine formalisierte Anfrage q Q entspricht einer logischen Formel über dem Alphabet Σ = T, in der die Junktoren,, und Klammern verwendet werden können. Retrieval-Funktion ρ R. Die Dokumentrepräsentation d eines Dokumentes d induziert eine Interpretation I d für q; man setzt ρ R (q, d) = I d (q). Gilt ρ R (q, d) = 1, wird das Dokument d Element der Antwortmenge R. IR:III-22 Retrieval Models STEIN
5 Bool sches Modell Dokumentmodell D, Q, ρ R [allgemeines Dokumentmodell] Dokumentrepräsentationen D. Typischerweise bilden die Nomen eines Korpus in ihrer Grundform die Menge der Indexterme T = {t 1,..., t m }. Die Repräsentation d eines Dokumentes d ist eine Abbildung von T nach {0, 1}, wobei d(w) = 1 bzw. d(w) = 0 als Term in d vorhanden bzw. nicht vorhanden interpretiert wird. Formalisierte Anfragenmenge Q. Eine formalisierte Anfrage q Q entspricht einer logischen Formel über dem Alphabet Σ = T, in der die Junktoren,, und Klammern verwendet werden können. Retrieval-Funktion ρ R. Die Dokumentrepräsentation d eines Dokumentes d induziert eine Interpretation I d für q; man setzt ρ R (q, d) = I d (q). Gilt ρ R (q, d) = 1, wird das Dokument d Element der Antwortmenge R. IR:III-23 Retrieval Models STEIN
6 Bool sches Modell Retrieval-Funktion ρ R t 1 t 2 (1, 0, 0) (0, 1, 0) t 3 (0, 0, 1) Welche Anfrage ist illustriert? IR:III-24 Retrieval Models STEIN
7 Bool sches Modell Retrieval-Funktion ρ R t 1 t 2 (1, 0, 0) (0, 1, 0) t 3 (0, 0, 1) Welche Anfrage ist illustriert? q = (t 1 t 2 t 3 ) (t 1 t 2 t 3 ) (t 1 t 2 t 3 ) t 1 (t 2 t 3 ) IR:III-25 Retrieval Models STEIN
8 Bool sches Modell Beispiel Dokumentrepräsentation: d = { (chrysler, 1), (deal, 1), (usa, 1), (china, 0), (cat, 0), (sales, 1), (dog, 0),... } Formalisierte Anfrage: q = usa (dog cat) (usa dog) (usa cat) (usa dog cat) (usa dog cat) (usa dog cat) Induzierte Interpretation: I d (q) = 1, wegen I d (usa) = 1, I d (dog) = 0 und I d (cat) = 0. IR:III-26 Retrieval Models STEIN
9 Bemerkungen: Das Zeichen steht für ist logisch äquivalent mit. Was bedeutet die logische Äquivalenz? IR:III-27 Retrieval Models STEIN
10 Bool sches Modell Diskussion Vorteile: Mächtigkeit: Prinzipiell kann mit einer Bool schen Anfrage jede beliebige Teilmenge von Dokumenten aus einer Kollektion selektiert werden. einfache und genaue Implementierbarkeit Nachteile: die Schwarz-Weiß-Aufteilung in die Menge R (bzw. R) der relevanten (bzw. nicht-relevanten) Dokumente ist zu streng keine Ordung auf der Antwortmenge R hinsichtlich der Relevanz die Größe der Antwortmenge ist schwierig zu kontrollieren keine Möglichkeit zur Gewichtung von Fragetermen umständliche Formulierung von Anfragen schlechte Retrieval-Qualität IR:III-28 Retrieval Models STEIN
11 Vektorraummodell Dokumentmodell D, Q, ρ R [allgemeines Dokumentmodell] Dokumentrepräsentationen D. Typischerweise bilden die Wortsstämme aller Nicht-Stopworte eines Korpus die Menge der Indexterme T = {t 1,..., t m }. Der Wertebereich der Termgewichte ist R; für die Gewichtsberechnung existieren verschiedene Konzepte. Formalisierte Anfragenmenge Q. Eine formale Anfrage q Q hat den gleichen Aufbau wie eine Dokumentrepräsentation d D. Retrieval-Funktion ρ R. Dokumentrepräsentationen und formalisierte Fragen werden als Punkte eines orthonormalen Vektorraums interpretiert, der durch die Terme aufgespannt wird. Wichtige Ansätze zur Berechnung von ρ R sind das cos-ähnlichkeitsmaß und die euklidische Distanz. IR:III-29 Retrieval Models STEIN
12 Vektorraummodell Dokumentmodell D, Q, ρ R [allgemeines Dokumentmodell] Dokumentrepräsentationen D. Typischerweise bilden die Wortsstämme aller Nicht-Stopworte eines Korpus die Menge der Indexterme T = {t 1,..., t m }. Der Wertebereich der Termgewichte ist R; für die Gewichtsberechnung existieren verschiedene Konzepte. Formalisierte Anfragenmenge Q. Eine formale Anfrage q Q hat den gleichen Aufbau wie eine Dokumentrepräsentation d D. Retrieval-Funktion ρ R. Dokumentrepräsentationen und formalisierte Fragen werden als Punkte eines orthonormalen Vektorraums interpretiert, der durch die Terme aufgespannt wird. Wichtige Ansätze zur Berechnung von ρ R sind das cos-ähnlichkeitsmaß und die euklidische Distanz. IR:III-30 Retrieval Models STEIN
13 Bemerkungen: Das Vektorraummodel wurde 1983 in dem Retrieval-System SMART in der Arbeitsgruppe von Gerhard Salton an der Cornell University eingesetzt. Die Entwicklungen und Überlegungen von Saltons Arbeitsgruppe reichen viele Jahre zurück. IR:III-31 Retrieval Models STEIN
14 Vektorraummodell Retrieval-Funktion ρ R Definition des Skalarproduktes a T b zwischen zwei Vektoren a und b, mit ϕ als Winkel zwischen a und b : cos(ϕ) = a T b = a b cos(ϕ) a T b a b IR:III-32 Retrieval Models STEIN
15 Vektorraummodell Retrieval-Funktion ρ R Definition des Skalarproduktes a T b zwischen zwei Vektoren a und b, mit ϕ als Winkel zwischen a und b : cos(ϕ) = a T b = a b cos(ϕ) a T b a b Normalisiert man a und b hier bezeichnet als a und b gilt: a T b cos(ϕ) = a b = (a ) T b n = (a ) T b = a a b i b i i=1 D, Q, ρ R mit cos-ähnlichkeitsmaß: Definition von ρ R (q, d) als cos(ϕ), mit ϕ als Winkel zwischen q und d. IR:III-33 Retrieval Models STEIN
16 Vektorraummodell Retrieval-Funktion ρ R play d 1 ϕ d 2 boy father IR:III-34 Retrieval Models STEIN
17 Vektorraummodell Beispiel d 1 = chrysler w 1 usa w 2 cat w 3 dog w 4 mouse w 5 = chrysler 1 usa 4 cat 3 dog 7 mouse 5 d 1 = chrysler 0.1 usa 0.4 cat 0.3 dog 0.7 mouse 0.5, d 2 = chrysler 0.4 usa 0.1 cat 0.7 dog 0.5 mouse 0.3 Der Winkel ϕ zwischen d 1 und d 2 ist etwa 38, cos(ϕ) IR:III-35 Retrieval Models STEIN
18 Vektorraummodell Retrieval-Modell R Zur Berechnung der Termgewichte w im Vektorraummodell hat sich der tf-idf-ansatz bewährt [Sparck-Jones] : 1. In Dokument d j ist die Bedeutung eines Terms t i proportional zu seiner Häufigkeit. term frequency tf(t i, d j ); sie bezeichnet die Häufigkeit des Vorkommens von Term t i in Dokument d j. 2. Auf einen Korpus bezogen ist die Bedeutung eines Terms t i umgekehrt proportional zur Anzahl df(t i ) (document frequency) derjenigen Dokumente, die den Term t i beinhalten. inverse document frequency idf(t i ): n + 1 idf(t i ) = log( 2 df(t i ) + 1 ) n bezeichne die Anzahl der Dokumente in dem betrachteten Korpus. IR:III-36 Retrieval Models STEIN
19 Vektorraummodell Retrieval-Modell R Zur Berechnung der Termgewichte w im Vektorraummodell hat sich der tf-idf-ansatz bewährt [Sparck-Jones] : 1. In Dokument d j ist die Bedeutung eines Terms t i proportional zu seiner Häufigkeit. term frequency tf(t i, d j ); sie bezeichnet die Häufigkeit des Vorkommens von Term t i in Dokument d j. 2. Auf einen Korpus bezogen ist die Bedeutung eines Terms t i umgekehrt proportional zur Anzahl df(t i ) (document frequency) derjenigen Dokumente, die den Term t i beinhalten. inverse document frequency idf(t i ): n + 1 idf(t i ) = log( 2 df(t i ) + 1 ) n bezeichne die Anzahl der Dokumente in dem betrachteten Korpus. IR:III-37 Retrieval Models STEIN
20 Bemerkungen: Idee hinter idf(t): Ein Term t, der nur in wenigen Dokumenten vorkommt, besitzt hohes Diskriminierungspotential. Vergleiche das Konzept der Stopwort-Elimination hiermit. Zur Berechnung des Gewichts eines Terms t wird das Produkt aus tf(t) und idf(t) verwendet. IR:III-38 Retrieval Models STEIN
21 Vektorraummodell Retrieval-Modell R n + 1 Verlauf der Funktion idf(t) = ln( ) für Korpusgröße n = 100. df(t) + 1 idf(t) df(t) IR:III-39 Retrieval Models STEIN
22 Vektorraummodell Diskussion Vorteile: Termwichtung verbessert die Retrieval-Performanz Im Gegensatz zur Schwarz-Weiß-Situation beim Bool schen Modell erlaubt das partielle Matching ein Retrieval von Dokumenten, die die Bedingungen in den Anfragen approximieren. Die Retrieval-Funktion ρ R definiert eine Rangordnung unter den gefundenen Dokumente bzgl. ihrer Ähnlichkeit zur der Anfrage. Nachteile: Indexterme werden als voneinander unabhängig angesehen IR:III-40 Retrieval Models STEIN
23 Vektorraummodell Clusteranalyse im Vektorraum Cluster/Category A Cluster/Category B 1. Auswahl einer Retrieval-Funktion ρ R 2. Berechnung der Distanzmatrix mit Clusterabstandsmaß d C z. B. als 1 ρ R 3. Berechnung eines Clusterings C IR:III-41 Retrieval Models STEIN
24 Vektorraummodell Clusteranalyse im Vektorraum hierarchisch iterativ agglomerativ divisiv exemplarbasiert austauschbasiert Single-Link, Group Average Min-Cut-Analyse k-means, k-medoid Kerninghan-Lin Cluster- Analyse dichtebasiert punktdichtebasiert anziehungsbasiert DBSCAN MajorClust metasuchegesteuert gradientengesteuert konkurrenzgesteuert Simulated Annealing genetische Algorithmen statistisch Gauß-mischverteilt... IR:III-42 Retrieval Models STEIN
Kapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
4. Nicht-Probabilistische Retrievalmodelle
4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung
Suchmaschinenalgorithmen. Vortrag von: Thomas Müller
Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:
Informationsverwaltung als selbstorganisierendes
Informationsverwaltung als selbstorganisierendes und kontext-basiertes System Kerstin Schmidt, Competence Center Wirtschaftsinformatik, Hochschule München Prof. Dr. Peter Mandl, Competence Center Wirtschaftsinformatik,
Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?
Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte
Übungsaufgaben mit Lösungsvorschlägen
Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie
Vorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 [email protected] 1 Themenübersicht
Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.
Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen
Ähnlichkeitssuche auf XML-Daten
Ähnlichkeitssuche auf XML-Daten Christine Lehmacher Gabriele Schlipköther Übersicht Information Retrieval Vektorraummodell Gewichtung Ähnlichkeitsfunktionen Ähnlichkeitssuche Definition, Anforderungen
Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14
Universität Augsburg, Institut für Informatik Wintersemester 2013/14 Prof. Dr. W. Kießling 10. Oktober 2013 F. Wenzel, D. Köppl Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14
WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg
Information Retrieval Modelle und neue Technologien Prof. Dr. Wolfgang Riggert FDH Flensburg Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien Retrievalmodell - allgemein Ein Retrievalmodell
Suchmaschinen. Anwendung RN Semester 7. Christian Koczur
Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe
2 Volltext-Suchmaschinen
2 Volltext-Suchmaschinen Volltext-Suchmaschinen werden vor allem für die Suche im Internet benutzt, jedoch gibt es auch Erweiterungen (Data Cartridge, Oracle) um Volltextsuche bei SQL-Suchmaschinen wie
Text Mining Gliederung. Text Mining. OS Datamining SS 10. Thomas Boy. 25. Mai 2010 1 / 37
Gliederung Text Mining OS Datamining SS 10 Thomas Boy 25. Mai 2010 1 / 37 Gliederung 1 Gliederung 2 Einleitung Motivation Konkretisierung 3 Allgemeines Definiton Text Mining Ablaufschema 4 Anwendungen
Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik
Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei
Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr
Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen
Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe
Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie
Kill Keyword Density. Weshalb die Keyword Density blanker Unsinn ist.
Kill Keyword Density Weshalb die Keyword Density blanker Unsinn ist. Kill Keyword Density» & Karl Kratz Das ist. Jana ist Diplom- Mathematikerin und Controlling-Leiterin bei der Innovation Group AG. Ihr
Einführung in das Data Mining Clustering / Clusteranalyse
Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten
Cluster-Labeling. Masterarbeit
Bauhaus-Universität Weimar Fakultät Medien Studiengang Mediensysteme Cluster-Labeling Paradigmen und Validierung Masterarbeit Dennis Hoppe Matrikelnummer 30090 Geboren am 14. April 1983 in Hameln 1. Gutachter:
tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009
tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten
2 Evaluierung von Retrievalsystemen
2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...
Clustering mit dem K-Means-Algorithmus (Ein Experiment)
Clustering mit dem K-Means- (Ein Experiment) Andreas Runk 7. März 2013 Index 1 2 3 4 5 Andreas Runk Clustering mit dem K-Means- 2/40 Ziele: des K-Means Finde/erstelle geeignetes Testcorpus möglichst gute
Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse
Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit
Clustering Seminar für Statistik
Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden
Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen
7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,
Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen.
Lucene Hilfe Begriffe Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen. Ein einzelner Begriff ist ein einzelnes
Einführung in die Fuzzy Logic
Einführung in die Fuzzy Logic Entwickelt von L. Zadeh in den 60er Jahren Benutzt unscharfe (fuzzy) Begriffe und linguistische Variablen Im Gegensatz zur Booleschen Logik {0,} wird das ganze Intervall [0,]
Large-Scale Image Search
Large-Scale Image Search Visuelle Bildsuche in sehr großen Bildsammlungen Media Mining I Multimedia Computing, Universität Augsburg [email protected] www.multimedia-computing.{de,org}
Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval
Kapitel IR:I I. Einführung Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval IR:I-1 Introduction STEIN 2005-2010 Retrieval-Szenarien Liefere Dokumente, die die Terme «Information» und
5. Suchmaschinen Herausforderungen beim Web Information Retrieval. 5. Suchmaschinen. Herausforderungen beim Web Information Retrieval
5. Suchmaschinen Herausforderungen beim Web Information Retrieval 5. Suchmaschinen Herausforderungen beim Web Information Retrieval Architektur von Suchmaschinen Spezielle Bewertungsfunktionen Information
Data Mining und Knowledge Discovery in Databases
Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining
Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009
Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Aufgabe 35: Thema: Singulärwertzerlegung und assoziierte Unterräume Sei A eine m n Matrix mit Rang r und A = UDV T ihre Singulärwertzerlegung.
Zusammenfassung. 1 Wir betrachten die folgende Signatur F = {+,,, 0, 1} sodass. 3 Wir betrachten die Gleichungen E. 4 Dann gilt E 1 + x 1
Zusammenfassung Zusammenfassung der letzten LV Einführung in die Theoretische Informatik Woche 7 Harald Zankl Institut für Informatik @ UIBK Wintersemester 2014/2015 1 Wir betrachten die folgende Signatur
Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006
Recommender Systems Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Inhalt 1 - Einführung 2 Arten von Recommender-Systemen 3 Beispiele für RCs 4 - Recommender-Systeme und
Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. [email protected]
Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern [email protected] Wiederholung: Anfragegraph Anfragen dieses Typs können als Graph dargestellt werden: Der
Semantic Web Technologies I!
www.semantic-web-grundlagen.de Semantic Web Technologies I! Lehrveranstaltung im WS11/12! Dr. Elena Simperl! DP Dr. Sebastian Rudolph! M.Sc. Anees ul Mehdi! www.semantic-web-grundlagen.de Logik Grundlagen!
Text Mining. Peter Kolb 25.6.2012
Text Mining Peter Kolb 25.6.2012 Übersicht Big Data Information Retrieval vs. Text Mining Anwendungen Dokumentenähnlichkeit Termähnlichkeit Merkmalsauswahl und -Gewichtung Kategorisierung Clustering Big
5. Aussagenlogik und Schaltalgebra
5. Aussagenlogik und Schaltalgebra Aussageformen und Aussagenlogik Boolesche Terme und Boolesche Funktionen Boolesche Algebra Schaltalgebra Schaltnetze und Schaltwerke R. Der 1 Aussagen Information oft
1. Grundlegende Konzepte von Information Retrieval Systemen
1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval 1. Grundlegende Konzepte von Information Retrieval Systemen Charakterisierung des Begriffs Information Retrieval Beispiele
2. Lernen von Entscheidungsbäumen
2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse
Information Retrieval
Information Retrieval Bisher: Datenbankabfrage mit Hilfe von SQL in relationalen Datenbanken. Die Informationen liegen geordnet in Tabellen -> exakte Ergebnisse Neu: Die Informationen liegen in Datensammlungen
Information Retrieval Modelle und neue Technologien. Stand : Februar 2006
Information Retrieval Modelle und neue Technologien Stand : Februar 2006 Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien Retrievalmodell - allgemein Ein Retrievalmodell besteht aus
Grundlagen der Theoretischen Informatik - Sommersemester 2012. Übungsblatt 1: Lösungsvorschläge
Lehrstuhl für Softwaretechnik und Programmiersprachen Professor Dr. Michael Leuschel Grundlagen der Theoretischen Informatik - Sommersemester 2012 Übungsblatt 1: Lösungsvorschläge Disclaimer: Bei Folgendem
Technische Universität Chemnitz. Fakultät für Informatik. Professur Medieninformatik. Diplomarbeit. von Jens Kürsten Matrikelnr.
Technische Universität Chemnitz Fakultät für Informatik Professur Medieninformatik Diplomarbeit von Jens Kürsten Matrikelnr. 24538 Systematisierung und Evaluierung von Clustering-Verfahren im Information
generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an
9. Text- und Web-Mining Text Mining: Anwendung von Data Mining - Verfahren auf große Mengen von Online-Textdokumenten Web Mining: Anwendung von Data Mining - Verfahren auf Dokumente aus dem WWW oder auf
Mathematik I für Wirtschaftswissenschaftler
1 Mathematik I für Wirtschaftswissenschaftler Lösungsvorschläge zur Klausur am 01.08.2003. Bitte unbedingt beachten: a) Verlangt und gewertet werden alle vier gestellten Aufgaben. Alle Aufgaben sind gleichwertig.
Information Retrieval in XML- Dokumenten
Inhalt Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund [email protected] I. Einführung II. III. IV. IR-Konzepte für XML XIRQL HyREX-Retrievalengine V. Zusammenfassung und
Seminar zum Thema Künstliche Intelligenz:
Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden
Universität ulm. Seminar Data Mining. Seminararbeit über Text Mining. Matthias Stöckl
Universität ulm Seminar Data Mining Seminararbeit über Text Mining Matthias Stöckl 1 Inhaltsverzeichnis: 1. Einführung 2. Grundlagen 3. Erschließung des Dokumenteninhaltes 3.1. Schlüsselwortextraktion
Clustering von Dokumenten (k-means, HCL)
Clustering von Dokumenten (k-means, HCL) Jonas Wolz Universität Ulm Zusammenfassung Ein Überblick über das Clustering von Dokumenten. Außerdem werden zwei dafür verwendete Algorithmen vorgestellt (k-means
Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion
Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische
Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine
Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine Prof. Dr. Peter Becker FH Bonn-Rhein-Sieg Fachbereich Informatik [email protected] Vortrag im Rahmen des Studieninformationstags
Fixpunktsemantik logischer Programme Pascal Hitzler Juli 1997 Kurzuberblick im Rahmen der Vorlesung Einfuhrung in Prolog von T. Cornell im Sommersemester 1997 an der Universitat Tubingen. Beweise sind
Entwicklung eines korrekten Übersetzers
Entwicklung eines korrekten Übersetzers für eine funktionale Programmiersprache im Theorembeweiser Coq Thomas Strathmann 14.01.2011 Gliederung 1 Einleitung
StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha. Vorgetragen von Matthias Altmann
StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha Vorgetragen von Matthias Altmann Mehrfache Datenströme Beispiel Luft und Raumfahrttechnik: Space Shuttle
Methoden zur sprachübergreifenden Plagiaterkennung
Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik Fachgebiet Wissensbasierte Systeme Masterarbeit zur Erlangung des Grades Master of Science Methoden zur sprachübergreifenden
Binäre Suchbäume (binary search trees, kurz: bst)
Binäre Suchbäume (binary search trees, kurz: bst) Datenstruktur zum Speichern einer endlichen Menge M von Zahlen. Genauer: Binärbaum T mit n := M Knoten Jeder Knoten v von T ist mit einer Zahl m v M markiert.
Kapitel 13: Information-Retrieval Modelle
Kapitel : Information- Modelle Zielsetzung Information (IR) warum hier Thema? Wichtiges Teilgebiet von Informationssystemen, Überblick, besseres Verständnis von Informationssystemen ; Begrifflichkeiten
Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht
Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht Informationen im Internet zu finden ist ein Kinderspiel! Wer sich für die Entwicklung des Ozonlochs interessiert, gibt auf
Computerlinguistik im Service Management eine neue Suche für TOPdesk
Computerlinguistik im Service Management eine neue Suche für TOPdesk Anna Hunecke Diplom Computerlinguistin TOPdesk [email protected] Inhalt TOPdesk Suchen in TOPdesk Lucene Lucene in TOPdesk TOPdesk
Such- und Klassifizierungsstrategien in elektronischen Produktkatalogen
Such- und Klassifizierungsstrategien in elektronischen Produktkatalogen Stefan Naumann, Rolf Krieger, Norbert Kuhn, Cordula Schürmann, Christian Sommer Institut für Softwaresysteme in Wirtschaft, Umwelt
Bitte unbedingt beachten: a) Gewertet werden alle acht gestellten Aufgaben.
Mathematik I für Wirtschaftswissenschaftler Klausur für alle gemeldeten Fachrichtungen außer Immobilientechnik und Immobilienwirtschaft am 9..9, 9... Bitte unbedingt beachten: a) Gewertet werden alle acht
Datenbanken und Informationssysteme
Datenbanken und Informationssysteme Information Retrieval: Konzepte und Beispiele Burkhardt Renz Fachbereich MNI TH Mittelhessen Wintersemester 2015/16 Übersicht Konzepte des Information Retrieval Architektur
u + v = v + u. u + (v + w) = (u + v) + w. 0 V + v = v + 0 V = v v + u = u + v = 0 V. t (u + v) = t u + t v, (t + s) u = t u + s u.
Universität Stuttgart Fachbereich Mathematik Prof. Dr. C. Hesse PD Dr. P. H. Lesky Dipl. Math. D. Zimmermann Msc. J. Köllner FAQ 3 Höhere Mathematik I 4..03 el, kyb, mecha, phys Vektorräume Vektorräume
Programmierung und Modellierung
Programmierung und Modellierung Terme, Suchbäume und Pattern Matching Martin Wirsing in Zusammenarbeit mit Moritz Hammer SS 2009 2 Inhalt Kap. 7 Benutzerdefinierte Datentypen 7. Binärer Suchbaum 8. Anwendung:
Eine vorprozessierte Variante von Scatter/Gather
Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Ausarbeitung zum Blockseminar Invisible Web Eine vorprozessierte Variante von
Information Retrieval [IR 4]
Information Retrieval [IR 4] Übungen und Wiederholungsfragen zur Prüfungsvorbereitung Winfried Gödert / Klaus Lepsky 21. Oktober 2015 Institut für Informationswissenschaft Fachhochschule Köln Claudiusstraße
1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:
Zählen und Zahlbereiche Übungsblatt 1 1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Für alle m, n N gilt m + n = n + m. in den Satz umschreiben:
Vorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen SVM Textkategorisierung Katharina Morik, Claus Weihs LS 8 Informatik 24.5.2011 1 von 46 Gliederung LS 8 Informatik 1 Web Mining Information Retrieval 2 Textklassifikation
Cluster-basiertes Browsing in Peer-to-Peer-Netzen
Diplomarbeit Cluster-basiertes Browsing in Peer-to-Peer-Netzen André Nurzenski Diplomarbeit im Vertiefungsgebiet Unterstützende Informationssysteme des Studiengangs Angewandte Informatik an der Universität
Kapitel 15: Differentialgleichungen
FernUNI Hagen WS 00/03 Kapitel 15: Differentialgleichungen Differentialgleichungen = Gleichungen die Beziehungen zwischen einer Funktion und mindestens einer ihrer Ableitungen herstellen. Kommen bei vielen
Logik für Informatiker
Logik für Informatiker 2. Aussagenlogik Teil 3 30.04.2012 Viorica Sofronie-Stokkermans Universität Koblenz-Landau e-mail: [email protected] 1 Letztes Mal Aussagenlogik Syntax: welche Formeln? Semantik:
Maximizing the Spread of Influence through a Social Network
1 / 26 Maximizing the Spread of Influence through a Social Network 19.06.2007 / Thomas Wener TU-Darmstadt Seminar aus Data und Web Mining bei Prof. Fürnkranz 2 / 26 Gliederung Einleitung 1 Einleitung 2
Text Mining. http://www.know-center.at/swat. Michael Granitzer [email protected]. Know-Center - gefördert im Programm IWM TU Graz
Text Mining Michael Granitzer [email protected] /swat Know-Center - gefördert im Programm IWM TU Graz Inhalt Ein paar Zahlen zur Motivation Vorverarbeitung von Texten Vektorraummodell Maschinelle Lernmethoden
A.1 Schaltfunktionen und Schaltnetze
Schaltfunktionen und Schaltnetze A. Schaltfunktionen und Schaltnetze 22 Prof. Dr. Rainer Manthey Informatik II Bedeutung des Binärsystems für den Rechneraufbau Seit Beginn der Entwicklung von Computerhardware
Was ist eine Clusteranalyse, wann und wie wird sie angewendet?
Autor: Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Fragestellung Drei Fragen stehen im Vordergrund dieser
5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung
5. Vorlesung Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung Seite 120 The Ranking Problem Eingabe: D: Dokumentkollektion Q: Anfrageraum
Grundbegriffe der Informatik
Grundbegriffe der Informatik Einheit 15: Reguläre Ausdrücke und rechtslineare Grammatiken Thomas Worsch Universität Karlsruhe, Fakultät für Informatik Wintersemester 2008/2009 1/25 Was kann man mit endlichen
1 Aussagenlogik und Mengenlehre
1 Aussagenlogik und engenlehre 1.1 engenlehre Definition (Georg Cantor): nter einer enge verstehen wir jede Zusammenfassung von bestimmten wohl unterschiedenen Objekten (m) unserer Anschauung oder unseres
9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83
9.. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 Die Grundfrage bei der Anwendung des Satzes über implizite Funktionen betrifft immer die folgende Situation: Wir haben eine Funktion f : V W und eine Stelle x
I. Aussagenlogik. Aussagenlogik untersucht Verknüpfungen wie "und", "oder", "nicht", "wenn... dann" zwischen atomaren und komplexen Sätzen.
I. Aussagenlogik 2.1 Syntax Aussagenlogik untersucht Verknüpfungen wie "und", "oder", "nicht", "wenn... dann" zwischen atomaren und komplexen Sätzen. Sätze selbst sind entweder wahr oder falsch. Ansonsten
Volltextsuche und Text Mining
1 Volltextsuche und Text Mining Datum: 22.12.2009 Seminar: Einführung in die Computerlinguistik Referenten: Cornelia Baldauf, Valentin Heinz, Adriana Kosior 2 Agenda 1. Einführung a) Volltextsuche b) Text
Exploration und Klassifikation von BigData
Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)
Analyse dichtebasierter Clusteralgorithmen am Beispiel von DBSCAN und MajorClust. Michael Busch Studienarbeit WS 2004/2005 Universität Paderborn
Analyse dichtebasierter Clusteralgorithmen am Beispiel von DBSCAN und MajorClust Michael Busch Studienarbeit WS 2004/2005 Universität Paderborn 22. März 2005 ii Analyse dichtebasierter Clusteralgorithmen
Mathematischer Vorkurs für Physiker WS 2009/10
TU München Prof. Dr. P. Vogl, Dr. S. Schlicht Mathematischer Vorkurs für Physiker WS 2009/10 Vorlesung 1, Montag vormittag Vektoralgebra Ein Vektor lässt sich geometrisch als eine gerichtete Strecke darstellen,
