Kapitel 13 n-gramme. HHU Düsseldorf, WS 2008/09 Information Retrieval 204

Größe: px
Ab Seite anzeigen:

Download "Kapitel 13 n-gramme. HHU Düsseldorf, WS 2008/09 Information Retrieval 204"

Transkript

1 Kapitel 13 n-gramme HHU Düsseldorf, WS 2008/09 Information Retrieval 204

2 Worte natürlichsprachiges Wort (steht zwischen zwei Leer- oder Satzzeichen) formales Wort der Länge n (n-gramm) Varianten von n-grammen im Retrieval: 1. Zerlegung identifizierter natürlichsprachiger Worte in Zeichenfolgen zu n 2. wie 1., aber hier unter Auffüllen von Leerzeichen am Anfang und am Ende 3. gleitende n-gramme über den Text (ggf. Trennung bei Satzoder Absatzende) HHU Düsseldorf, WS 2008/09 Information Retrieval 205

3 INFORMATION RETRIEVAL in Variante 2 in Tetragrammen ***I, **IN, *INF, INFO, NFOR, FORM, ORMA, RMAT, MATI, ATIO, TION, ION*, ON**, N*** ***R, **RE, *RET, RETR, ETRI, TRIE, RIEV, IEVA, EVAL, VAL*, AL**, L*** in Variante 3 mit gleitenden Tetragrammen ***I, **IN, *INF, INFO, NFOR, FORM, ORMA, RMAT, MATI, ATIO, TION, ION*, ON*R, N*RE, neu *RET, RETR, ETRI, TRIE, RIEV, IEVA, EVAL, VAL*, AL**, L*** HHU Düsseldorf, WS 2008/09 Information Retrieval 206

4 Anzahl der n-gramme ist begrenzt: Alphabet n Bsp.: deutsches Alphabet: 26 Zeichen plus Leerzeichen bei n= = Gramme bei n= = Gramme bei n= = Gramme Vergleich: arbeitet man mit Worten, so ist deren Anzahl (zumindest prinzipiell) unendlich groß nicht alle möglichen n-gramme sind auch besetzt englisch (3-Gramme): nur 16% faktisch vorhanden HHU Düsseldorf, WS 2008/09 Information Retrieval 207

5 Vorteile der n-gramme gegenüber Worten: überschaubares, endliches Material besonders geeignet bei Sprachen ohne Wortgrenzen (chinesisch, japanisch) keine weiteren Algorithmen wie bei der Wortbearbeitung (Morphologie, Zerlegung von Mehrwortausdrücken usw.) da sprachungebunden: mehrsprachiges Retrieval gegeben Relevance Ranking direkt anhand der n-gramme kostengünstig HHU Düsseldorf, WS 2008/09 Information Retrieval 208

6 Nachteile: semantische Fallen sind möglich ( Widerspruchsfreiheit ) kein semantisches Umfeld Präzision suboptimal (allerdings nur im Vergleich mit hochentwickelten Algorithmen der Wortbearbeitung) Probleme mit Flexionen Umlautung (Fuchs Füchsin) Ablaute (singen Gesang) Zirkumfigierung (stöhnen Gestöhne) Infixe (wie im Arabischen) HHU Düsseldorf, WS 2008/09 Information Retrieval 209

7 Pentagramm-Register Identifikation von Registereinträgen innerhalb (auch langer) Worte Beispiel: WIDERSPRUCHSFREIHEITSBEWEIS WIDER, IDERS, DERSP, ERSPR, RSPRU, SPRUC, PRUCH, RUCHS, UCHSF, CHSFR, HSFRE, SFREI, FREIH, REIHE, EIHEI, IHEIT, HEITS, EITSB, ITSBE, TSBEW, SBEWE, BEWEI, EWEIS ins Register übernommen werden die sinnvollen Pentagramme (ein anderes Wort im Register beginnt mit derselben Zeichenfolge) so findet man Widerspruchsfreiheitsbeweis auch unter Beweis, Freiheit, Reihe und Spruch Henrichs, N. (1975): Sprachprobleme beim Einsatz von Dialog-Retrieval-Systemen. In: Deutscher Dokumentartag 1974, Bd. 2. München [u.a.]: Verl. Dokumentation, S HHU Düsseldorf, WS 2008/09 Information Retrieval 210

8 ACQUAINTANCE (Vektorraum-IR-System) commonality : Zentroid-Vektor Damashek, M. (1994): Method or retrieving documents that concern the same topic. Patent-Nr. US Patentanmelder: The United States of America as represented by the Director of National Security Agency, Washington, D.C. Erteilt am: (Eingereicht am ). HHU Düsseldorf, WS 2008/09 Information Retrieval 211

9 ACQUAINTANCE M =: Dokument mit m Dimensionen (d.h. unterschiedlichen n-grammen) N =: anderes Dokument (z.b. Suchanfrage) mit n Dimensionen j =: Anzahl der Dimensionen x(m,j) / y(n,j) =: Gewichtungswert eines n-gramms aus M bzw. N (relative Häufigkeit) µ(j) =: Gewichtungswert des Zentroiden in Dimension j Relevance Ranking nach Cosinus: HHU Düsseldorf, WS 2008/09 Information Retrieval 212

10 HAIRCUT (Probabilistisches IR-System) Berechnung eines Ähnlichkeitswertes zwischen Such-n- Grammen und n-grammen in Texten P: Wahrscheinlichkeit für Relevanz (rechte Gleichungsseite: relative Häufigkeit) D: Dokument (Text) C: gesamte Datenbank (collection) Q: Suchanfrage; q: n-gramm aus Suchanfrage α: Konstante (Glättungsparameter) P(D Q) = [α*p(q 1 D) + (1- α)*p(q 1 C)] *... * [α*p(q n D) + (1- α)*p(q n C)] McNamee, HHU Düsseldorf, P.; Mayfield, WS 2008/09 J. (2004): Character n-gram Information tokenization Retrieval for European language text retrieval In: Information Retrieval 7, S

11 HAIRCUT - Arbeitsschritte Erkennung von Sätzen Löschen von Stoppworten (z.b. the ) (nicht Stopp-n-Grammen; Bsp.: Trigramm the in mathematics) gleitende n-gramme über die Sätze Errechnung der relativen Häufigkeiten Relevance Ranking nach HAIRCUT-Formel HHU Düsseldorf, WS 2008/09 Information Retrieval 214

12 n-gramme: Welches n für welche Sprache? HHU Düsseldorf, WS 2008/09 Information Retrieval 215

Kapitel 18 Fehlertolerantes Retrieval

Kapitel 18 Fehlertolerantes Retrieval Kapitel 18 Fehlertolerantes Retrieval HHU Düsseldorf, WS 2008/09 Information Retrieval 272 Eingabefehler in den Dokumenten in den Suchanfragen Formen Leerzeichenfehler ("...ofthe..."; "th_ebook") Fehler

Mehr

Kapitel 19 Textstatistik. HHU Düsseldorf, WS 2008/09 Information Retrieval 287

Kapitel 19 Textstatistik. HHU Düsseldorf, WS 2008/09 Information Retrieval 287 Kapitel 19 Textstatistik HHU Düsseldorf, WS 2008/09 Information Retrieval 287 Die These von Luhn: Termhäufigkeit als Signifikanzfaktor Luhn, H.P. (1957): A statistical approach to mechanized encoding and

Mehr

Bücher und Artikel zum Thema

Bücher und Artikel zum Thema Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Materialsammlung zur Implementierung von Information Retrieval Systemen

Materialsammlung zur Implementierung von Information Retrieval Systemen Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Kapitel 23 Strukturinformationen in Dokumenten. HHU Düsseldorf, WS 2008/09 Information Retrieval 368

Kapitel 23 Strukturinformationen in Dokumenten. HHU Düsseldorf, WS 2008/09 Information Retrieval 368 Kapitel 23 Strukturinformationen in Dokumenten HHU Düsseldorf, WS 2008/09 Information Retrieval 368 Erkennung von Strukturinformationen in Web- Dokumenten Aufgaben: Kreation von Metadaten optimal: Eintragen

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

Sprachsynthese: Textnormalisierung

Sprachsynthese: Textnormalisierung Sprachsynthese: (Änderungen von F. Schiel 2016) Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu schiel@phonetik.uni-muenchen.de 24. Oktober 2016 Inhalt = Vorverarbeitung

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Sprachsynthese: Textnormalisierung

Sprachsynthese: Textnormalisierung Sprachsynthese: Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu@phonetik.uni-muenchen.de 15. Oktober 2014 Inhalt, Finite-State-Methoden Disambiguierung des

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Kapitel 14. Worte. HHU Düsseldorf, WS 2008/09 Information Retrieval 216

Kapitel 14. Worte. HHU Düsseldorf, WS 2008/09 Information Retrieval 216 Kapitel 14 Worte HHU Düsseldorf, WS 2008/09 Information Retrieval 216 Schriftsystemerkennung Zeichensätze erkennen: falls Unicode eingesetzt wird, kein Problem wenn nicht: automatische Schriftsystemerkennung

Mehr

Klassisches Information Retrieval Jan Schrader

Klassisches Information Retrieval Jan Schrader Klassisches Information Retrieval 27.10.2011 Jan Schrader Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies

Mehr

Information Retrieval

Information Retrieval Information Retrieval Eine kurze Einführung von Ronny Berger 18. Juli 2002 Typeset by FoilTEX IR-Konzepte Definition von Information Retrieval: Gegenstand des Information-Retrieval ist die inhaltliche

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Internet-Suchmaschinen Probabilistische Retrievalmodelle Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.

Mehr

Implementierung eines Vektormodells

Implementierung eines Vektormodells Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis Inhaltsverzeichnis Geleitwort Vorwort Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis Symbolverzeichnis i iü xi xiii xv xvii 1 Einleitung 1 1.1 Problemstellung 1 1.2 Zielsetzung der Arbeit

Mehr

Einführung in die Computerlinguistik Information Retrieval: tf.idf

Einführung in die Computerlinguistik Information Retrieval: tf.idf Einführung in die Computerlinguistik Information Retrieval: tf.idf Dr. Benjamin Roth & Annemarie Friedrich Centrum für Infomations- und Sprachverarbeitung LMU München WS 2016/2017 Referenzen Dan Jurafsky

Mehr

Kapitel 31 Bild- und Tonretrieval. HHU Düsseldorf, WS 2008/09 Information Retrieval 483

Kapitel 31 Bild- und Tonretrieval. HHU Düsseldorf, WS 2008/09 Information Retrieval 483 Kapitel 31 Bild- und Tonretrieval HHU Düsseldorf, WS 2008/09 Information Retrieval 483 Multimedia Information Retrieval Content-based Information Retrieval gesprochene Sprache Musik und weitere Audio-Dokumente

Mehr

Ranking Functions im Web: PageRank & HITS

Ranking Functions im Web: PageRank & HITS im Web: PageRank & HITS 28. Januar 2013 Universität Heidelberg Institut für Computerlinguistik Information Retrieval 4 / 30 Idee PageRank Entstehung: Larry Page & Sergey Brin, 1998, genutzt von Google

Mehr

ALP I Turing-Maschine

ALP I Turing-Maschine ALP I Turing-Maschine Teil I WS 2012/2013 Äquivalenz vieler Berechnungsmodelle Alonzo Church λ-kalkül Kombinatorische Logik Alan Turing Turing-Maschine Mathematische Präzisierung Effektiv Berechenbare

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus

Mehr

Multimedia-Datenbanken im SS 2010 Ähnlichkeitsmaße II

Multimedia-Datenbanken im SS 2010 Ähnlichkeitsmaße II Multimedia-Datenbanken im SS 2010 Ähnlichkeitsmaße II Dr.-Ing. Marcin Grzegorzek 22.06.2010 Inhalte und Termine 1. Einführung in MMDB 1.1 Grundlegende Begriffe 1.2 Suche in einem MMDBS 1.3 MMDBMS-Anwendungen

Mehr

Kapitel 1.5 und 1.6. Ein adäquater Kalkül der Aussagenlogik

Kapitel 1.5 und 1.6. Ein adäquater Kalkül der Aussagenlogik Kapitel 1.5 und 1.6 Ein adäquater Kalkül der Aussagenlogik Teil 1: Kalküle und Beweisbarkeit und die Korrektheit des Shoenfield-Kalküls Mathematische Logik (WS 2010/11) Kapitel 1.5 und 1.6: Kalküle 1 /

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Grundlagen Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 21 Diskrete Wahrscheinlichkeitsräume (1) Carstensen et al. (2010), Abschnitt

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Kapitel 8 Typologie von Retrievalsystemen

Kapitel 8 Typologie von Retrievalsystemen Kapitel 8 Typologie von Retrievalsystemen HHU Düsseldorf, WS 2008/09 Information Retrieval 115 nach Medienform der Dokumente: textuelle Dokumente strukturierte Dokumente schwach strukturierte Dokumente:

Mehr

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining 6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable

Mehr

Implementierung des Vektor Modells

Implementierung des Vektor Modells Implementierung des Vektor Modells Alex Judea Jens Burkhardt Titel des Seminars Information Retrieval WS 07/08 Seminar für Computerlinguistik Institut für Allgemeine und Angewandte Sprachwissenschaft Universität

Mehr

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. 3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen

Mehr

6. Probabilistische Retrievalmodelle. Norbert Fuhr

6. Probabilistische Retrievalmodelle. Norbert Fuhr 6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD

Mehr

Kapitel 11 Informetrische Analysen. HHU Düsseldorf, WS 2008/09 Information Retrieval 180

Kapitel 11 Informetrische Analysen. HHU Düsseldorf, WS 2008/09 Information Retrieval 180 Kapitel 11 Informetrische Analysen HHU Düsseldorf, WS 2008/09 Information Retrieval 180 Gewinnung neuer Informationen aus Datenbanken Unterstützung der normalen Recherche Information-Retrieval-Forschung

Mehr

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany BIW Wahlpflichtmodul Einführung in Solr, Pipeline und REST Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2018-05-29 Überblick über gängige Lösungen 2 3 in a nutshell

Mehr

Natural language processing

Natural language processing Natural language processing Guangyu Ge Betreuer: Tobias 29.01.2018 GLIEDERUNG 1. Einführung 2. Anwendungsbereiche 3. Verfahren bei NLP 4. Zusammenfassung ZIELE VON KÜNSTLICHER INTELLIGENZ Quelle: https://cdn-images-1.medium.com/max/800/0*y707xutx3zmvjkxx.png

Mehr

Klausurenkurs zum Staatsexamen (WS 2016/17): Lineare Algebra und analytische Geometrie 1

Klausurenkurs zum Staatsexamen (WS 2016/17): Lineare Algebra und analytische Geometrie 1 Dr. Erwin Schörner Klausurenkurs zum Staatsexamen (WS 206/7): Lineare Algebra und analytische Geometrie. (Herbst 2005, Thema, Aufgabe ) Bestimmen Sie alle reellen Lösungen des folgenden linearen Gleichungssystems:.2

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200

Mehr

Kapitel 9 Architektur eines Retrievalsystems

Kapitel 9 Architektur eines Retrievalsystems Kapitel 9 Architektur eines Retrievalsystems HHU Düsseldorf, WS 2008/09 Information Retrieval 138 HHU Düsseldorf, WS 2008/09 Information Retrieval 139 Zeichensätze ASCII 7-bit-Code (128 Zeichen) 1000111111001011101011100101111001111100110100000100

Mehr

Komplexita tstheorie eine erste Ubersicht. KTV bedeutet: Details erfahren Sie in der Komplexitätstheorie-Vorlesung.

Komplexita tstheorie eine erste Ubersicht. KTV bedeutet: Details erfahren Sie in der Komplexitätstheorie-Vorlesung. Komplexita tstheorie eine erste Ubersicht KTV bedeutet: Details erfahren Sie in der Komplexitätstheorie-Vorlesung. Probleme Problem = Menge von unendlich vielen konkreten Einzelfragen (Instanzen) F n,

Mehr

Language Identification XXL

Language Identification XXL Ruprecht-Karls Universität Heidelberg Seminar für Computerlinguistik Software Projekt WS 2009/10 Language Identification XXL Referenten: Galina Sigwarth, Maria Semenchuk, George Kakish, Ulzhan Kadirbayeva

Mehr

Information Retrieval

Information Retrieval Reginald Ferber Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web d p u n kt.ver I ag Inhaltsverzeichnis I Grundlagen und klassische IR-Methoden 1 1 1.1 1.2 1.3

Mehr

Information Retrieval. Domenico Strigari Dominik Wißkirchen

Information Retrieval. Domenico Strigari Dominik Wißkirchen Information Retrieval Domenico Strigari Dominik Wißkirchen 2009-12-22 Definition Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies

Mehr

Formale Systeme. Aussagenlogik: Sequenzenkalkül. Prof. Dr. Bernhard Beckert WS 2010/2011 KIT INSTITUT FÜR THEORETISCHE INFORMATIK

Formale Systeme. Aussagenlogik: Sequenzenkalkül. Prof. Dr. Bernhard Beckert WS 2010/2011 KIT INSTITUT FÜR THEORETISCHE INFORMATIK Formale Systeme Prof. Dr. Bernhard Beckert WS 2010/2011 KIT INSTITUT FÜR THEORETISCHE INFORMATIK KIT University of the State of Baden-Württemberg and National Large-scale Research Center of the Helmholtz

Mehr

Einige Grundlagen der Komplexitätstheorie

Einige Grundlagen der Komplexitätstheorie Deterministische Polynomialzeit Einige Grundlagen der Komplexitätstheorie Ziel: NP-Vollständigkeit als ressourcenbeschränktes Analagon zur RE-Vollständigkeit. Komplexitätstheorie untersucht den Ressourcenbedarf

Mehr

BLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen.

BLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen. Eingangtest (anonym) BLATT 1 Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen. 1) Was ist ein Zeichensatz (character set) und was eine

Mehr

Satz 7. A sei eine Teilmenge des nichttrivialen Vektorraums (V,+, ). Dann sind die folgende Aussagen äquivalent.

Satz 7. A sei eine Teilmenge des nichttrivialen Vektorraums (V,+, ). Dann sind die folgende Aussagen äquivalent. Definition der Basis Def. Es sei (V,+, ) ein nichttrivialer Vektorraum. Die Menge A V heißt eine Basis-Menge, falls sie (a) linear unabhängig ist und (b) span(a) = V. Satz 7. A sei eine Teilmenge des nichttrivialen

Mehr

VuFind Ein Baustein beim Finden, Entdecken & Bekommen. Gerald Steilen, 6. Mai 2015

VuFind Ein Baustein beim Finden, Entdecken & Bekommen. Gerald Steilen, 6. Mai 2015 VuFind Ein Baustein beim Finden, Entdecken & Bekommen Gerald Steilen, 6. Mai 2015 Perceptions of Libraries and Information Resources. 1 Wo beginnt die Suche? Perceptions of Libraries and Information Resources.

Mehr

WS 2013/14. Diskrete Strukturen

WS 2013/14. Diskrete Strukturen WS 2013/14 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws1314

Mehr

Moderne IR / Language Models / Page Ranking

Moderne IR / Language Models / Page Ranking Moderne IR / Language Models / Page Ranking Paul Raab 10.11.2011 Paul Raab () Moderne IR / Language Models / Page Ranking 10.11.2011 1 / 14 Überblick Statistische Methoden auf Sprachmodelle angewandt sind

Mehr

Information Retrieval Einführung

Information Retrieval Einführung Information Retrieval Einführung Kursfolien Karin Haenelt 22.7.2015 Themen Traditionelles Konzept / Erweitertes Konzept Auffinden von Dokumenten Rankingfunktionen Auffinden und Aufbereiten von Information

Mehr

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung

Mehr

Basis und Dimension. Definition. Sei V ein K-Vektorraum und (v i ) i I eine Familie von Vektoren

Basis und Dimension. Definition. Sei V ein K-Vektorraum und (v i ) i I eine Familie von Vektoren Basis und Dimension Definition. Sei V ein K-Vektorraum und (v i ) i I eine Familie von Vektoren aus V. 1) (v i ) i I heißt ein Erzeugendensystem von V, wenn Span(v i ) = V. 2) (v i ) i I heißt Basis von

Mehr

Information Retrieval und Question Answering

Information Retrieval und Question Answering und Question Answering Kai Kugler 19. November 2009 Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem

Mehr

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

8 Euklidische und unitäre Vektorräume. Skalarprodukte Orthogonalität Matrizen

8 Euklidische und unitäre Vektorräume. Skalarprodukte Orthogonalität Matrizen 8 Euklidische und unitäre Vektorräume Skalarprodukte Orthogonalität Matrizen 8 Euklidische und unitäre Vektorräume Skalarprodukte Orthogonalität Matrizen In diesem Kapitel werden nur endlich dimensionale

Mehr

Automatentheorie und formale Sprachen rechtslineare Grammatiken

Automatentheorie und formale Sprachen rechtslineare Grammatiken Automatentheorie und formale Sprachen rechtslineare Grammatiken Dozentin: Wiebke Petersen 17.6.2009 Wiebke Petersen Automatentheorie und formale Sprachen - SoSe09 1 Pumping lemma for regular languages

Mehr

= ( n x j x j ) 1 / 2

= ( n x j x j ) 1 / 2 15 Skalarprodukte 77 15 Skalarprodukte 15.1 Einführung. a) Ab jetzt sei stets K = R oder K = C, da Wurzeln eine wichtige Rolle spielen werden. b) Nach dem Satz des Pythagoras ist die Länge eines Vektors

Mehr

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung

Mehr

Boole'sches Modell <is web>

Boole'sches Modell <is web> Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht

Mehr

Textnormalisierung. Uwe Reichel IPS, LMU München 4. Mai 2010

Textnormalisierung. Uwe Reichel IPS, LMU München 4. Mai 2010 Textrmalisierung Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 4. Mai 2010 Inhalt Satzsegmentierung Wortrmalisierung Tokenisierung Token-Zerlegung Outputformat Inhalt 1 Satzsegmentierung

Mehr

Einführung in die Computerlinguistik Statistische Grundlagen

Einführung in die Computerlinguistik Statistische Grundlagen Diskrete Wahrscheinlichkeitsräume (1) Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Wintersemester 2011/2012 In vielen Bereichen der CL kommt

Mehr

Formale Systeme. Büchi-Automaten. Prof. Dr. Bernhard Beckert WS 2009/2010 KIT INSTITUT FÜR THEORETISCHE INFORMATIK

Formale Systeme. Büchi-Automaten. Prof. Dr. Bernhard Beckert WS 2009/2010 KIT INSTITUT FÜR THEORETISCHE INFORMATIK Formale Systeme Prof. Dr. Bernhard Beckert WS 2009/2010 KIT INSTITUT FÜR THEORETISCHE INFORMATIK KIT University of the State of Baden-Württemberg and National Large-scale Research Center of the Helmholtz

Mehr

HS Information Retrieval

HS Information Retrieval HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Kapitel 6 Lineare Gleichungssysteme 6. Gaußalgorithmus Aufgabe 6. : Untersuchen Sie die folgenden linearen Gleichungssysteme mit dem Gaußalgorithmus auf Lösbarkeit und bestimmen Sie jeweils die Lösungsmenge.

Mehr

Klausurenkurs zum Staatsexamen (WS 2014/15): Lineare Algebra und analytische Geometrie 1

Klausurenkurs zum Staatsexamen (WS 2014/15): Lineare Algebra und analytische Geometrie 1 Dr. Erwin Schörner Klausurenkurs zum Staatsexamen (WS 204/5): Lineare Algebra und analytische Geometrie. (Herbst 2005, Thema, Aufgabe ) Bestimmen Sie alle reellen Lösungen des folgenden linearen Gleichungssystems:.2

Mehr

Algorithmische Anwendungen WS 05/06 Document Ranking

Algorithmische Anwendungen WS 05/06 Document Ranking Algorithmische Anwendungen WS 05/06 Document Ranking Ulrich Schulte (ai641@gm.fh-koeln.de) Harald Wendel (ai647@gm.fh-koeln.de) Seite 1/17 Inhaltsverzeichnis Algorithmische Anwendungen WS 05/06 1. Document

Mehr

Berechenbarkeitstheorie 1. Vorlesung

Berechenbarkeitstheorie 1. Vorlesung Berechenbarkeitstheorie Dr. Institut für Mathematische Logik und Grundlagenforschung WWU Münster WS 15/16 Alle Folien unter Creative Commons Attribution-NonCommercial 3.0 Unported Lizenz. Zentrale Themen

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Formale Systeme. Prof. Dr. Bernhard Beckert, WS 2016/ KIT Die Forschungsuniversita t in der Helmholtz-Gemeinschaft

Formale Systeme. Prof. Dr. Bernhard Beckert, WS 2016/ KIT Die Forschungsuniversita t in der Helmholtz-Gemeinschaft Formale Systeme Prof. Dr. Bernhard Beckert, WS 2016/2017 Aussagenlogik: Tableaukalku l KIT I NSTITUT F U R T HEORETISCHE I NFORMATIK www.kit.edu KIT Die Forschungsuniversita t in der Helmholtz-Gemeinschaft

Mehr

Textmining Clustering von Dokumenten

Textmining Clustering von Dokumenten Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Formale Systeme. Prof. Dr. Bernhard Beckert. Winter 2008/2009. Fakultät für Informatik Universität Karlsruhe (TH)

Formale Systeme. Prof. Dr. Bernhard Beckert. Winter 2008/2009. Fakultät für Informatik Universität Karlsruhe (TH) Formale Systeme Prof. Dr. Bernhard Beckert Fakultät für Informatik Universität Karlsruhe (TH) Winter 2008/2009 Prof. Dr. Bernhard Beckert Formale Systeme Winter 2008/2009 1 / 22 Kalküle für die Aussagenlogik

Mehr

WS 2015/16 Diskrete Strukturen Kapitel 3: Kombinatorik (3)

WS 2015/16 Diskrete Strukturen Kapitel 3: Kombinatorik (3) WS 2015/16 Diskrete Strukturen Kapitel 3: Kombinatorik (3) Hans-Joachim Bungartz Lehrstuhl für wissenschaftliches Rechnen Fakultät für Informatik Technische Universität München http://www5.in.tum.de/wiki/index.php/diskrete_strukturen_-_winter_15

Mehr

Formale Systeme. Prof. Dr. Bernhard Beckert, WS 2017/ KIT Die Forschungsuniversita t in der Helmholtz-Gemeinschaft

Formale Systeme. Prof. Dr. Bernhard Beckert, WS 2017/ KIT Die Forschungsuniversita t in der Helmholtz-Gemeinschaft Formale Systeme Prof. Dr. Bernhard Beckert, WS 2017/2018 Aussagenlogik: Tableaukalku l KIT I NSTITUT F U R T HEORETISCHE I NFORMATIK www.kit.edu KIT Die Forschungsuniversita t in der Helmholtz-Gemeinschaft

Mehr

Formale Methoden 2. Gaetano Geck Lehrstuhl I Logik in der Informatik WS 2015/2016

Formale Methoden 2. Gaetano Geck Lehrstuhl I Logik in der Informatik WS 2015/2016 Formale Methoden 2 Gaetano Geck Lehrstuhl I Logik in der Informatik WS 2015/2016 Teil 3: Kodierung 1 Motivation 2 Exkurs Grundlagen formaler Sprachen 3 Grundlagen 4 Beispielkodierungen FM2 (WS 2014/15,

Mehr

auf C[; ] sind linear III Formale Dierentiation und Integration: Die Abbildungen und a + a t + + a n t n a + a t + + na n t n a + a t + + a n t n an a

auf C[; ] sind linear III Formale Dierentiation und Integration: Die Abbildungen und a + a t + + a n t n a + a t + + na n t n a + a t + + a n t n an a x LINEARE ABBILDUNGEN Denition: Seien V; V Vektorraume Eine Abbildung f heit linear, falls (i) (ii) f(x + y) f(x) + f(y) (x; y V ) f(x) f(x) ( R; x V ) Bemerkungen: I (i) und (ii) oben sind aquivalent

Mehr

Formale Sprachen und Automaten

Formale Sprachen und Automaten Formale Sprachen und Automaten Kapitel 1: Grundlagen Vorlesung an der DHBW Karlsruhe Thomas Worsch Karlsruher Institut für Technologie, Fakultät für Informatik Wintersemester 2012 Ziel Einführung der wichtigsten

Mehr

Terminologie-Extraktion: Beispiel

Terminologie-Extraktion: Beispiel Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation

Mehr

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu

Mehr

Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250

Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250 Kapitel 16 Begriffe HHU Düsseldorf, WS 2008/09 Information Retrieval 250 Semantisches Umfeld "Find what I mean, not what I say" (Susan Feldman) natürlichsprachiges Umfeld Werkzeug: natürlichsprachiger

Mehr

Information Retrieval

Information Retrieval Information Retrieval Invertierter Index, Boolesches Retrieval Stefan Birkner 7. September 2010 Bisheriger Stand Anfrage Dokumente Tokenisierung Stoppworte entfernen Stemming Tokenisierung Stoppworte entfernen

Mehr

Grenzen der Regularität

Grenzen der Regularität Grenzen der Regularität Um die Mächtigkeit von endlichen Automaten zu verstehen, muss man auch ihre Grenzen kennen. Sei z.b. B = {0 n 1 n n 0} Gibt es einen DEA für B? Es sieht so aus, als müsste sich

Mehr

Information Retrieval

Information Retrieval Information Retrieval 1 Information Retrieval Norbert Fuhr 13. Oktober 2011 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Daten Information Wissen 4 Dimensionen des IR 5 Rahmenarchitektur für IR-Systeme

Mehr

Theoretische Grundlagen der Informatik

Theoretische Grundlagen der Informatik Theoretiche Grundlagen der Informatik KIT 24.1.211 Univerität de Dorothea Lande Baden-Württemberg Wagner - Theoretiche und Grundlagen der Informatik nationale Forchungzentrum Vorleung in am der 2.Oktober

Mehr

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09) Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess

Mehr

1. Vorlesung,

1. Vorlesung, 1. Vorlesung, 16.10.2006 Einführung und Motivation, Beispiel Information versus Daten Grundlegende Konzepte Aufgaben des Anwenders Logische Sicht auf Dokumente Dokumentvorverarbeitung Dokumentsuche mit

Mehr

4 Funktionenfolgen und normierte Räume

4 Funktionenfolgen und normierte Räume $Id: norm.tex,v 1.57 2018/06/08 16:27:08 hk Exp $ $Id: jordan.tex,v 1.34 2018/07/12 20:08:29 hk Exp $ 4 Funktionenfolgen und normierte Räume 4.7 Kompakte Mengen Am Ende der letzten Sitzung hatten wir zwei

Mehr

Algorithmen mit konstantem Platzbedarf: Die Klasse REG

Algorithmen mit konstantem Platzbedarf: Die Klasse REG Algorithmen mit konstantem Platzbedarf: Die Klasse REG Sommerakademie Rot an der Rot AG 1 Wieviel Platz brauchen Algorithmen wirklich? Daniel Alm Institut für Numerische Simulation Universität Bonn August

Mehr

ids-system GmbH Tipp #3 Leer-Strings in SQL oder die Frage nach CHAR oder VARCHAR

ids-system GmbH Tipp #3 Leer-Strings in SQL oder die Frage nach CHAR oder VARCHAR ids-system GmbH Tipp #3 Leer-Strings in SQL oder die Frage Zusammenfassung Dieses Dokument beschreibt die Unterschiede zwischen CHAR und VARCHAR Datentyp sowie die Behandlung im SQL Michael Tiefenbacher

Mehr

Information Retrieval. Überblick

Information Retrieval. Überblick Fachhochschule Köln, Campus Gummersbach Institut für Informatik und Ingenieurwissenschaften Information Retrieval WPF 45 Überblick Prof. Dr. Heide Faeskorn - Woyke Fachhochschule Köln Campus Gummersbach

Mehr

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15. SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit

Mehr

Technische Universität München

Technische Universität München Stand der Vorlesung Kapitel 2: Auffrischung einiger mathematischer Grundlagen Mengen, Potenzmenge, Kreuzprodukt (Paare, Tripel, n-tupel) Relation: Teilmenge MxN Eigenschaften: reflexiv, symmetrisch, transitiv,

Mehr

Kapitel 1 Einleitung. Definition: Algorithmus nach M. Broy: aus: Informatik: Eine grundlegende Einführung, Band 1, Springer-Verlag, Berlin

Kapitel 1 Einleitung. Definition: Algorithmus nach M. Broy: aus: Informatik: Eine grundlegende Einführung, Band 1, Springer-Verlag, Berlin Kapitel 1 Einleitung 1.1. Begriff des Algorithmus Eine der ältesten Beschreibungstechniken für Abläufe: Benannt nach dem Mathematiker Al-Khwarizmi (ca. 780...840), der am Hof der Kalifen von Bagdad wirkte.

Mehr