5. Information Retrieval
|
|
- Stephanie Hase
- vor 6 Jahren
- Abrufe
Transkript
1 5. Information Retrieval
2 Inhalt 5.1 Information Retrieval 5.2 Vorverarbeitung der Dokumente 5.3 Boolesches Retrieval 5.4 Vektorraum-Modell 5.5 Evaluation 5.6 Implementierung 5.7 Websuche 2
3 5.1 Information Retrieval Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) [Manning 2008] Information Retrieval ist ein Fachgebiet in der Schnittmenge von Informationswissenschaft, Informatik und Computerlinguistik Weitgehend unabhängige, parallele Entwicklung zum Fachgebiet Datenbanken der Informatik mit nun zunehmendem Ideenaustausch 3
4 Information Retrieval Information Retrieval befasst mit Suche nach Inhalten Artikel (z.b. aus Wissenschaft und Presse) Webseiten Office-Dokumente (z.b. Präsentationen und Spreadsheets) s Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) Benutzerprofile (z.b. auf Facebook oder XING) [Manning 2008] 4
5 Information Retrieval Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) Daten haben meist keine oder nur wenig Struktur Einfache Textdokumente (keine Struktur) HTML (Überschriften und Absätze markiert) JSON und XML (semistrukturiert) [Manning 2008] RDBMSs, im Gegensatz, betrachten strukturierte Daten 5
6 Information Retrieval Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) [Manning 2008] Informationsbedürfnis des Benutzers als Ausgangspunkt selten präzise (z.b. Was kann man in Berlin unternehmen?) ungenau als Anfrage formuliert (z.b. berlin sights) RDBMSs, im Gegensatz, bieten Anfragesprache mit genau definierter Semantik (z.b. relationale Algebra) 6
7 Information Retrieval Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) Große Datenmengen mit rapidem Wachstum Desktop ~ Dokumente The New York Times ( ) ~ Dokumente WWW im Jahr 1998 ~ Dokumente [Manning 2008] WWW im Jahr 2008 ~ Dokumente 7
8 Historisches Bibliotheken (seit ca v. Chr.) Katalogisierung nach Titel, Erscheinungsjahr, Autoren oder Schlagwörtern Klassifikationsschemata zur inhaltlichen Einordnung (z.b. Dewey-Dezimalklassifikation) JMC Vannevar Bushs Memex (1945) [3] erweitertes Gedächtnis (memory extender) Verknüpfung und Annotation von Inhalten 8
9 Historisches SMART System von Salton et al. (1960er) Rangordnung der Ergebnisse Berücksichtigung von Rückmeldungen des Benutzers TREC und andere Benchmark-Initiativen (seit 1992) Google und andere Suchmaschinen (seit frühen 1990er) 9
10 IR vs. DBMSs IR-Systeme und DBMSs unterscheiden sich wie folgt unstrukturierte vs. strukturierte Daten (z.b. Zeitungsartikel vs. Attribute eines Produkts) vages vs. genau definiertes Informationsbedürfnis (z.b. Berichte über Berlin vs. meistverkauftes Produkt) vage vs. genau definierte Semantik der Anfragen (z.b. Schlüsselwortanfragen vs. Relationale Algebra) Rangordnung vs. keine Rangordnung der Ergebnisse (z.b. Berichte über Berlin vs. Studenten im dritten Semester) Mensch vs. Anwendung als typischer Anwender 10
11 IR in DBMSs DBMSs integrieren zunehmend IR-Funktionalität Volltextsuche (z.b. in MS SQL Server und PostgreSQL) auf textuellen Attributen mit linguistischer Vorverarbeitung, sowie Rangordnung der Ergebnisse IR-Systeme werden zunehmend als DBMSs eingesetzt Elasticsearch und Apache Solr erweitern Apache Lucene als traditionelles IR-System zur Indexierung und Suche von semi-strukturierten Dokumenten (z.b. in JSON oder XML) und können je nach Anwendung ein (R)DBMS ersetzen 11
12 Gütemaße im Information Retrieval Informationsbedürfnis des Benutzers und Semantik der Anfragen sind vage Gütemaße messen inwiefern das von einem IR-System zurückgelieferte Ergebnis das Informationsbedürfnis des Benutzers befriedigen kann Alle Dokumente in der Dokumentensammlung werden hierzu als relevant bzw. nicht-relevant für das Informationsbedürfnis des Benutzers klassifiziert 12
13 Präzision und Ausbeute (precision and recall) Präzision (precision) und Ausbeute (recall) als zwei Maße der Ergebnisgüte relativ zum Informationsbedürfnis Relevante Ergebnisse (true positives) Irrelevante Ergebnisse (false positives) Relevante Nicht-Ergebnisse (false negatives) Irrelevante Nicht-Ergebnisse (true negatives) Ergebnis Relevante Dokumente tn tn tn tn tn tn tn tn fn fn fn tn tn tn fn fn fn tn tn fp tp tp fn tn tn fp fp fp tn tn tn tn tn tn tn tn 13
14 Präzision und Ausbeute (precision and recall) Präzision (precision) #tp #tp +#fp = # relevanter Dokumente im Ergebnis # Dokumente im Ergebnis misst Fähigkeit nur relevante Dokumente zu liefern Ausbeute (recall) #tp #tp +#fn = # relevanter Dokumente im Ergebnis # relevanter Dokumente misst Fähigkeit alle relevanten Dokumente zu liefern 14
15 Literatur C. D. Manning, P. Raghavan, H. Schütze: Introduction to Information Retrieval, Cambridge University Press, 2008 [PDF] W. Bruce Croft, D. Metzler, T. Strohman: Search Engines Information Retrieval in Practice, Pearson Education, 2010 [PDF] 15
16 5.2 Vorverarbeitung der Dokumente Dokumente durchlaufen Vorverarbeitung (preprocessing), bevor sie indexiert werden, um dann mit Hilfe des Index Anfragen bearbeiten zu können, z.b. Entfernen von Formatierungen (z.b. HTML-Tags) Zerlegung (tokenization) in Bestandteile (tokens) Normalisierung der Bestandteile zu Termen (terms) 16
17 Zerlegung (tokenization) Dokumente werden in Bestandteile (tokens) zerlegt, indem das Dokument u.a. an Leerzeichen (white spaces) aufgeteilt wird und Satzzeichen entfernt werden Zusätzlich kann eine Aufteilung von Mehrwortgruppen (compound splitting) vorgenommen werden (z.b. bodenseeschifferpatentantrag) 17
18 Normalisierung (normalization) Normalisierung der Bestandteile führt zu Termen (terms), die indexiert und gesucht werden können, z.b. Umwandlung in Kleinbuchstaben (lower casing) Vereinheitlichung von Umlauten (z.b. ä wird zu ae) Vereinheitlichung von Datumsangaben (z.b. 2011/05/21) 18
19 Wortreduktion (stemming, lemmatization) Wörter kommen in verschiedenen Beugungsformen vor Konjugation bei Verben (z.b. go, gone, went) Deklination bei Substantiven und Adjektiven (z.b. boat, boats, mouse, mice) Komparation bei Adjektiven (z.b. cheap, cheaper, cheapest) Wörter können zudem den gleichen Wortstamm haben (z.b. work, worker, working, drive, driver, driven) 19
20 Grundformreduktion Reduktion auf Grundform (auch: Lemmatisierung) (lemmatization) erfolgt immer auf ein existierendes Wort Nominativ Singular bei Substantiven und Adjektiven (z.b. boat und boats wird zu boat) Infinitiv bei Verben (z.b. go, gone und went wird zu go) Bestimmung der korrekten Grundform ist oft schwierig und bedarf zusätzlicher Information in Form von Kontext oder Wortart (part of speech) Wörterbuch (z.b. um mice auf mouse abzubilden) 20
21 Stammformreduktion Reduktion auf Stammform (stemming) erfolgt auf Wortstamm, der kein existierendes Wort sein muss (z.b. boats auf boa und vegetation auf veget) Regelbasierte Ansätze zur sukzessiven Suffixentfernung für schwach gebeugte (flektierte) Sprachen wie Englisch 21
22 Porters Algorithmus Porters Algorithmus entfernt Suffixe in fünf Schritten Schritt 1a: Wende Regel für längst mögliches Suffix an sses ss ies i s _ Schritt 2: Falls Token aus zwei oder mehr Silben besteht ational ate tional tion enci ence izer ize 22
23 Porters Algorithmus He is the author of the multi-volume work The Art of Computer Programming. He contributed to the development of the rigorous analysis of the computational complexity of algorithms and systematized formal mathematical techniques for it. In the process he also popularized the asymptotic notation. In addition to fundamental contributions in several branches of theoretical computer science, Knuth is the creator of the TeX computer typesetting system, the related METAFONT font definition language and rendering system, and the Computer Modern family of typefaces. Quelle: He is the author of the multi volum work The Art of Comput Program He contribut to the develop of the rigor analysi of the comput complex of algorithm and systemat formal mathemat techniqu for it In the process he also popular the asymptot notat In addit to fundament contribut in sever branch of theoret comput scienc Knuth is the creator of the TeX comput typeset system the relat METAFONT font definit languag and render system and the Comput Modern famili of typefac 23
24 Porters Algorithmus Implementierung unter Online-Demo unter 24
25 Wortreduktion Durch eine Reduktion von Wörtern auf ihre Grundform oder Stammform kann man erreichen tolerantere Suche (z.b. beim Booleschen Retrieval), die nicht mehr von spezifischer Wortform abhängt geringere Anzahl zu indexierender Terme Verbesserung des Recall (z.b. für working conditions chinese factories) Verschlechterung der Präzision (z.b. für marine vegetation) Nutzen der Wortreduktion für IR ist umstritten, tendenziell größer für stark flektierte Sprachen (z.b. Deutsch) 25
26 Zipf sches Gesetz (Zipf s law) George K. Zipf ( ) beobachtete, dass für natürlichsprachliche Text gilt, dass die Häufigkeit eines Wortes f(w) umgekehrt proportional zu seinem Häufigkeitsrang r(w) ist, d.h.: f(w) Ã 1 r(w) mit 1 Quelle: Das häufigste Wort kommt somit doppelt so oft vor wie das zweithäufigste Wort zehnmal so oft vor wie das Wort auf Rang 10 hundertmal so oft vor wie das Wort auf Rang
27 Zipf sches Gesetz (Zipf s law) Beispiel: Worthäufigkeit und Häufigkeitsrang in The New York Times zwischen 1987 und 2007 log(häufigkeit) log(häufigkeitsrang) 27
28 Stoppworteliminierung (stopword removal) Stoppwörter (z.b. a, the, of) sind Wörter, die nur wenig Information beinhalten, da sie z.b. in sehr vielen Dokumenten vorkommen und somit von geringem Nutzen für die Beantwortung von Anfragen sind Eliminierung von Stoppwörtern reduziert den zur Indexierung benötigten Speicherplatz verbessert die Antwortzeiten kann Ergebnisgüte verbessern (z.b. a song of fire and ice) kann Ergebnisgüte verschlechtern (z.b. the who) 28
29 Stoppworteliminierung (stopword removal) Stoppworteliminierung anhand einer manuell definierten Stoppwortliste, evtl. mit themenspezifischen Stoppwörtern a, an, and, are, as, at, be, by, for, has, he, in, is, it, its, of, on, that, the, to, was, where, will, with Stoppwortliste kann alternativ automatisch erstellt werden und alle Wörter enthalten, die in mehr als einem bestimmten Anteil der Dokumente vorkommen 29
30 Bag-of-Words Vorverarbeitung wandelt Dokument in eine Multimenge von Wörtern (bag of words) um, d.h. die Information wie oft ein Wort im Dokumente vorkommt bleibt erhalten 30
31 5.3 Boolesches Retrieval Boolesches Retrieval als früher Ansatz, der noch Anwendung (z.b. Katalogsuche in Bibliotheken) findet Dokumente als Belegungen Boolescher Variablen, die anzeigen, ob ein Term im Dokument vorkommt oder nicht Anfragen als Boolesche Ausdrücke, welche Terme mit den Operatoren AND, OR und NOT verknüpfen 31
32 Boolesches Retrieval Beispiel: Dokumente über George Martin oder Neil Gaiman (george AND martin) OR (neil AND gaiman) george martin neil gaiman d d d d d mit Darstellung der Dokumentensammlung als Term-Dokument-Matrix 32
33 Erweiterungen Boolesches Retrieval kann erweitert werden durch Aufteilung der Dokumenten in Felder (z.b. Titel, Abstract) zusätzliche Operatoren basierend auf Wortposition (NEAR) Vorteil: Semantik von Anfragen (d.h. erwartetes Ergebnis) ist eindeutig definiert Nachteil: keine Rangordnung des Ergebnisses nach Relevanz (ranking) 33
34 Zusammenfassung Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Präzision und Ausbeute als elementare Gütemaße Zerlegung und Normalisierung der Dokumente (z.b. Eliminierung von Stoppwörtern, Wortreduktion) Boolesches Retrieval als früher Ansatz, der noch immer Anwendung findet und Grundlage moderner Ansätze ist 34
35 Literatur [1] C. D. Manning, P. Raghavan, H. Schütze: Information Retrieval, Cambridge University Press, 2008 (Kapitel 1 & 2) [2] W. B. Croft, D. Metzler, T. Strohman: Search Engines Intelligent IR in Practice, Pearson, 2010 (Kapitel 1 & 4) [3] V. Bush: As We May Think, The Atlantic,
2. Natürliche Sprache
2. Natürliche Sprache Rückblick Information Retrieval an der Schnittstelle zwischen Bibliotheks- und Kommunikationswissenschaft, Computerlinguistik und Informatik Informationsbedürfnis des Benutzers als
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
MehrBIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany
BIW Wahlpflichtmodul Einführung in Solr, Pipeline und REST Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2018-05-29 Überblick über gängige Lösungen 2 3 in a nutshell
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrInformation Retrieval. Peter Kolb
Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation
MehrWMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
MehrInformation Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
MehrVom Suchen und Finden - Google und andere Ansätze
Vom Suchen und Finden - Google und andere Ansätze Norbert Fuhr Universität Duisburg Essen FB Ingenieurwissenschaften Abteilung Informatik 12. Mai 2005 Gliederung 1 Einführung 2 Grundlagen 3 Erweiterte
MehrInformation-Retrieval: Evaluation
Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrEvaluation von IR-Systemen
Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen
MehrInformation Retrieval. Überblick
Fachhochschule Köln, Campus Gummersbach Institut für Informatik und Ingenieurwissenschaften Information Retrieval WPF 45 Überblick Prof. Dr. Heide Faeskorn - Woyke Fachhochschule Köln Campus Gummersbach
MehrProf. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17
Seminar im Modul M-GSW-09 WiSe 2016/17 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität
MehrAutomatisiertes Annotieren in CATMA
Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de
MehrAufbau eines Flexionslexikons für die Katalogbereinigung
Exposé der Studienarbeit: Aufbau eines Flexionslexikons für die Katalogbereinigung Eingereicht von: Johannes Kozakiewicz Institut für Informatik Humboldt-Universität zu Berlin Matr.Nr.: 186778 kozakiewicz@gmx.de
MehrVolltextsuche und Text Mining
Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval
MehrSuchmaschinen. Anwendung RN Semester 7. Christian Koczur
Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe
MehrPraktikum Information Retrieval Wochen 12: Suchmaschine
Praktikum Information Retrieval Wochen 12: Suchmaschine Matthias Jordan 7. November 18. November 2011 Lösungen: Upload bis 18. November 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrBoolesche- und Vektorraum- Modelle
Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle
MehrExposé zur Studienarbeit. 04. August 2010
Exposé zur Studienarbeit Relevanzranking in Lucene im biomedizinischen Kontext Christoph Jacob Betreuer: Phillipe Thomas, Prof. Dr. Ulf Leser 04. August 2010 1. Motivation Sucht und ihr werdet finden dieses
MehrSUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008
SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische
MehrInformation Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
Mehr2 Evaluierung von Retrievalsystemen
2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...
MehrSeminar Textmining SS 2015 Grundlagen des Maschinellen Lernens
Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining
MehrEine semantische Suchmaschine in der Biomedizin
Eine semantische Suchmaschine in der Biomedizin Jena University Language and Information Engineering Lab Anne Schneider Friedrich-Schiller-Universität Jena Einstieg Großes Wachstum von Daten im Bereich
MehrKapitel IR:II (Fortsetzung)
Kapitel IR:II (Fortsetzung) II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-20 Basics STEIN 2005-2010 Die klassischen Dokumentmodelle abstrahieren ein Dokument auf eine
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrHS Information Retrieval
HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:
MehrRetrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)
Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des
MehrKapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme
Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert
MehrÜbung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz
02_Grundlagen Lucene Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz Was ist Lucene? (1) Apache Lucene is a high-performance, full-featured text search engine library written
MehrPressedatenbank: Nexis (bisher LexisNexis)
Pressedatenbank: Nexis (bisher LexisNexis) Inhalt Stand: 19.08.2014 Artikel aus Zeitschriften, Magazinen und Zeitungen im Volltext - tagesaktuell und retrospektiv, national und international (z.b. Stuttgarter
MehrGrundbegriffe des Information Retrieval
Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,
MehrInverted Files for Text Search Engines
Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung
MehrSPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN
SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie
MehrPraxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A
Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)
MehrWebsite-Suche mit OpenText Web Site Management. Frank Steffen - Senior Product Manager
Website-Suche mit OpenText Web Site Management Frank Steffen - Senior Product Manager Inhalt Überblick Konzepte der Suchmaschinenanbindung Verity K2 Anbindung Der neue OT Search Engine Connector Federated
MehrStrukturierte Extraktion von Text aus PDF. Präsentation der Masterarbeit von Fabian Schillinger
Strukturierte Extraktion von Text aus PDF Präsentation der Masterarbeit von Fabian Schillinger Übersicht Motivation Probleme bei der Textextraktion Ablauf des entwickelten Systems Ergebnisse Präsentation
MehrAnsichten Der Natur,: Mit Wissenschaftlichen Erläuterungen, (German Edition) By Alexander von Humboldt
Ansichten Der Natur,: Mit Wissenschaftlichen Erläuterungen, (German Edition) By Alexander von Humboldt If you are looking for the book Ansichten Der Natur,: Mit Wissenschaftlichen Erläuterungen, (German
MehrAnwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
MehrNatürlichsprachliche Systeme I Materialien zur Vorlesung
Natürlichsprachliche Systeme I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg WS 2010/11, 19. Oktober 2010,
MehrIndexierung der HBZ-Verbunddaten mit FAST Data Search
Indexierung der HBZ-Verbunddaten mit FAST Data Search 8. InetBib-Tagung 2004 Bonn, 5.11.2004 Dr. Peter Kostädt, HBZ NRW Dr. Peter Kostädt, HBZ NRW 1 Katalog Suchmaschine "Saubere" Daten Feldbezogene Suche
MehrÜbersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene
Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:
MehrInterdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen
Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, en SS 2013: Grossmann, Jenko 1 Definitionen Folgenden Begriffe werden oft synonym verwendet: Formale Sprache Programmiersprache Computersprache
MehrDatenbank-Recherche. SS Veranstaltung 16. April Philipp Mayr - Philipp Schaer -
Datenbank-Recherche SS 2015 2. Veranstaltung 16. April 2015 Philipp Mayr - philipp.mayr@gesis.org Philipp Schaer - philipp.schaer@gesis.org GESIS Leibniz-Institut für Sozialwissenschaften 2 Vorstellung
MehrNachteile Boolesches Retrieval
Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrEinführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr
Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen
MehrMaschinelle Übersetzung
Hauptstudiumsprojekt SoSe 07 Maschinelle Übersetzung Walther v. Hahn, Cristina Vertan {vhahn,vertan}@informatik.uni-hamburg.de Wozu dient ein Projekt? Projekte im Umfang von 6 SWS dienen der Bearbeitung
MehrTextdokument-Suche auf dem Rechner Implementierungsprojekt
Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick
MehrInformation Retrieval
Information Retrieval Norbert Fuhr 12. April 2010 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Dimensionen des IR 4 Daten Information Wissen 5 Rahmenarchitektur für IR-Systeme IR in Beispielen IR-Aufgaben
MehrLogik für Informatiker Logic for computer scientists
Logik für Informatiker Logic for computer scientists Till Mossakowski WiSe 2007/08 2 Rooms Monday 13:00-15:00 GW2 B1410 Thursday 13:00-15:00 GW2 B1410 Exercises (bring your Laptops with you!) either Monday
MehrSinn und Aufgabe eines Wissenschaftlers: Textvergleich zweier klassischer Autoren (German Edition)
Sinn und Aufgabe eines Wissenschaftlers: Textvergleich zweier klassischer Autoren (German Edition) Click here if your download doesn"t start automatically Sinn und Aufgabe eines Wissenschaftlers: Textvergleich
MehrÜberblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Überblick Registervariation multidimensionale Analyse Register quantitative Analyse Dimensionen:
MehrÄhnlichkeitssuche auf XML-Daten
Ähnlichkeitssuche auf XML-Daten Christine Lehmacher Gabriele Schlipköther Übersicht Information Retrieval Vektorraummodell Gewichtung Ähnlichkeitsfunktionen Ähnlichkeitssuche Definition, Anforderungen
MehrFit für die Projektarbeit. Thematische Literatursuche in 5 Schritten Quelle: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10.
Fit für die Projektarbeit Thematische Literatursuche in 5 Schritten Quelle: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10.2010 Thematische Literatursuche in 5 Schritten 1. Was suchen Sie? Analysieren
Mehr5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS)
5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) Sommersemester 2009 Dr. Carsten Sinz, Universität Karlsruhe Datenstruktur BDD 2 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer:
MehrAutomatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale
MehrWortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank
Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010
MehrWelche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?
Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte
MehrRelevance Ranking Revisited Mischen unterschiedlicher Quellen in VuFind
Relevance Ranking Revisited Mischen unterschiedlicher Quellen in VuFind 3. VuFind Anwendertreffen 2014 Frankfurt Stefan Winkler Anfragen im Support Warum kommt bei meiner Suche ein Dokument an dieser Stelle?
MehrAkademisches Lehrmaterial online
Akademisches Lehrmaterial online Christian Weber cweber@akleon.de Entstanden im Rahmen des DFN-Projekts META-AKAD gefördert mit Mitteln des BMBF Mitwirkende an der TU Kaiserslautern Universitätsbibliothek
MehrCentrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München
# 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-
MehrRegistration of residence at Citizens Office (Bürgerbüro)
Registration of residence at Citizens Office (Bürgerbüro) Opening times in the Citizens Office (Bürgerbüro): Monday to Friday 08.30 am 12.30 pm Thursday 14.00 pm 17.00 pm or by appointment via the Citizens
MehrUniversität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme
Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar
MehrGliederung. Algorithmen und Datenstrukturen I. Eine wichtige Frage. Algorithmus. Materialien zur Vorlesung. Begriffsbestimmung EUKLID Primzahltest
Gliederung Algorithmen und Datenstrukturen I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg 1 Winter 2009/10,
Mehr1. Vorlesung,
1. Vorlesung, 16.10.2006 Einführung und Motivation, Beispiel Information versus Daten Grundlegende Konzepte Aufgaben des Anwenders Logische Sicht auf Dokumente Dokumentvorverarbeitung Dokumentsuche mit
MehrWissen aus unstrukturierten natürlichsprachlichen
ZKI Tagung AK Supercomputing, 19.-20. Okt. 2015 Wissen aus unstrukturierten natürlichsprachlichen Daten Sprachtechnologie und Textanalytik in the large Udo Hahn Jena University Language & Information Engineering
MehrWeb Data Management Systeme
Web Data Management Systeme Seminar: Web-Qualitätsmanagement Arne Frenkel Agenda Einführung Suchsysteme Suchmaschinen & Meta-Suchmaschinen W3QS WebSQL WebLog Information Integration Systems Ariadne TSIMMIS
MehrThe English Tenses Die englischen Zeitformen
The English Tenses Die englischen Zeitformen Simple Present (Präsens einfache Gegenwart) Handlungen in der Gegenwart die sich regelmäßig wiederholen oder einmalig geschehen I go you go he goes she goes
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrDigital Humanities Recherche im DWDS und DTA
Digital Humanities Recherche im DWDS und DTA mit Booleschen Operatoren und Regulären Ausdrücken Jena Language & Information Engineering (JULIE) Lab Friedrich-Schiller-Universität Jena, Germany http://www.julielab.de
MehrAlles nur Google? Das Innenleben der Suchmaschinen
Alles nur Google? Das Innenleben der Suchmaschinen Prof. Dr. Klaus Meyer-Wegener Friedrich-Alexander-Universität Technische Fakultät Institut für Informatik 1. Das World-wide Web (WWW) oft auch "Internet"
MehrSchöpfung als Thema des Religionsunterrichts in der Sekundarstufe II (German Edition)
Schöpfung als Thema des Religionsunterrichts in der Sekundarstufe II (German Edition) Juliane Timmroth Click here if your download doesn"t start automatically Schöpfung als Thema des Religionsunterrichts
MehrFuzzy-Suche in Application Express
Fuzzy-Suche in Application Express So geht s! Carsten Czarski Consulting Member of technical staff - Oracle Application Express September 2017 Copyright 2016 Oracle and/or its affiliates. All rights reserved.
MehrSprachstatistik: Das Zipf sche Gesetz
Sprachstatistik: Das Zipf sche Gesetz Korpus-Workshop Thema Korpus-Statistik Thomas Wittig Universität Leipzig Institut für Informatik wittig@uni-leipzig.de Principle of Least Effort 2 George K. Zipf:
MehrEfficient Design Space Exploration for Embedded Systems
Diss. ETH No. 16589 Efficient Design Space Exploration for Embedded Systems A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of Sciences presented by
MehrInformation Retrieval and Semantic Technologies
Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen
MehrMap Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher
Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!
MehrAutomatisierte Dossier- Erstellung mittels Text-Mining
Automatisierte Dossier- Erstellung mittels Text-Mining Paul Assendorp Grundseminar 11.12.2014 Paul Assendorp Automatisierte Dossier-Erstellung 1 Gliederung Motivation Textmining Tools Aktueller Stand Ausblick
MehrJakarta Lucene. Eine Java-Bibliothek zur Suchindex-Erstellung. Seminararbeit Tilman Schneider
Jakarta Lucene Eine Java-Bibliothek zur Suchindex-Erstellung Seminararbeit Tilman Schneider 2004 Tilman Schneider Seminararbeit: Jakarta Lucene Folie 1 Agenda Definition: Suchmaschine Vorstellung von Jakarta
MehrApache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org
Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software
MehrInhaltsverzeichnis. Kurzfassung. Abstract
Inhaltsverzeichnis Kurzfassung Abstract Inhaltsverzeichnis iii v vii 1 Einleitung 1 1.1 Problemstellung und Einordnung der Arbeit 1 1.2 Lösungsansatz 7 L3 Verwandte Arbeiten S 1.3.1 Datenbank-Suchmaschmen
MehrMultilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval
Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval
MehrFacetten von Designforschung Einblicke in den Stand der Dinge
Hans Kaspar Hugentobler Designforschung: Vielfalt, Relevanz, Ideologie Facetten von Designforschung Einblicke in den Stand der Dinge Hans Kaspar Hugentobler Master of Design Diplom-Kommunikationswirt Bremen
MehrBiometrie und Medizinische Informatik Greifswalder Seminarberichte
Die Reihe Biometrie und Medizinische Informatik Greifswalder Seminarberichte wird herausgegeben von Universitätsprofessor Dr.rer.nat.habil.Karl-Ernst Biebler und Dr.rer.nat. Bernd Jäger, Institut für Biometrie
MehrDatenbanken & Informationssysteme (WS 2015/2016)
Datenbanken & Informationssysteme (WS 2015/2016) Klaus Berberich (klaus.berberich@htwsaar.de) Wolfgang Braun (wolfgang.braun@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de)
MehrFederated Search: Integration von FAST DataSearch und Lucene
Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation
MehrWar bis 2004 Bakk. rer.soc.oec. Bakkalaureus/Bakkalaurea rerum socialium oeconomicarumque Bakk. der Sozial- und Wirtschaftswissenschaften
War bis 2004 Bakk. rer.soc.oec. Bakkalaureus/Bakkalaurea rerum socialium oeconomicarumque Bakk. der Sozial- und Wirtschaftswissenschaften ab 2007 - Heute BSc Bachelor of Science WAS IST INFORMATIK? WAS
MehrLiteratursuche in Med-Datenbanken
Literatursuche in Med-Datenbanken Heide Lingard Abteilung Allgemein- und Familienmedizin,, MUW Donausymposium Krems 7 Oktober 2006 Welche Datenbank Medline PubMed Scopus Science Citation Index (SCI) Journal
MehrHEALTH Institut für Biomedizin und Gesundheitswissenschaften
HEALTH Institut für Biomedizin und Gesundheitswissenschaften Konzept zur Verbesserung eines klinischen Information Retrieval Systems unter Verwendung von Apache UIMA und medizinischen Ontologien Georg
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -
MehrTokenisierung und Lemmatisierung in Suchmaschinen
Tokenisierung und Lemmatisierung in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2010 Stefan Langer stefan.langer@cis.uni-muenchen.de Übung: Tokenisierung (5 min) Was ist
MehrSearch-Driven Applications. Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH
Search-Driven Applications Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH Agenda Motivation Aufbau der Such-Datenstruktur Anwendungsfälle Fallstricke Was ist Suche? Was wollen
Mehr7. XML-Datenbanksysteme und SQL/XML
7. XML-Datenbanksysteme und SQL/XML Native XML-DBS vs. XML-Erweiterungen von ORDBS Speicherung von XML-Dokumenten Speicherung von XML-Dokumenten als Ganzes Generische Dekomposition von XML-Dokumenten Schemabasierte
Mehr