Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Größe: px
Ab Seite anzeigen:

Download "Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK"

Transkript

1 Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg

2 Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten

3 Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten

4 Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten

5 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Vorverarbeitung Segmentierung Tokenisierung Zerlegung eines Textes in einzelne Wörter (Tokens) Satzzeichen werden als eigene Tokens behandelt Einfacher Tokenizer in NLTK: import nltk tokens = nltk.word_tokenize( Dies ist ein Satz. ) Sonderfälle: Abkürzungen URLs und -Adressen Mehrwortlexeme, Bindestrich-Komposita Zahlengruppen 5 / 22

6 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Vorverarbeitung Segmentierung Satzgrenzenerkennung Hinweise für Satzgrenze: Satzzeichen.,!? Nächstes Wort großgeschrieben Schwierigkeiten: mehrdeutige Satzzeichen (Punkt nach Abkürzungen) Eigennamen und Nomen (im Deutschen) immer groß Eingeschachtelte Sätze (Parenthesen, Zitate)... 6 / 22

7 Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten

8 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Vorverarbeitung Normalisierung Grundformenreduktion Ziel: Unterschiedliche flektierte Wortformen sollen als gleiches Wort (Lexem) erkannt werden. a) Lemmatisierung Ziel: Ermittle das Lemma Vollformenlexikon und/oder linguistische Analyse der morphologischen Wortuntereinheiten Implementierung z.b. mit Hilfe endlicher Automaten b) Stemming Ziel: Abbildung auf denselben Wortrumpf (idealerweise Wortstamm) regelbasiert/heuristisch simple Transformationsregeln 8 / 22

9 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Vorverarbeitung Normalisierung Porter-Stemmer Bekannter, simpler Stemming-Algorithmus: In NLTK: Abschneiden von Suffixen Plätten von Umlauten Weitere kleine Anpassungen import nltk stemmer = nltk.stem.snowball.snowballstemmer( german ) stemmer.stem(u Übung ) 9 / 22

10 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Vorverarbeitung Normalisierung Weitere Normalisierung Abgleich von Schreibvarianten Groß- und Kleinschreibung Schreibfehler Entfernen von Stoppwörtern ggf. Auflösen von Abkürzungen ggf. Entfernen von Satzzeichen 10 / 22

11 Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten

12 12 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Dokumentrepräsentationen Dokumente als Bag of Words Reihenfolge der Wörter unwichtig Grammatik unwichtig Zähle, wie oft jedes Wort vorkommt Als der Hase und der Igel um die Wette liefen, gewann der Igel. { Als :1, der :3, die :1, gewann :1, Hase :1, Igel :2, liefen :1, um :1, und :1, Wette :1}

13 13 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Dokumentrepräsentationen Vektorraum-Modell Darstellung jedes Dokuments durch einen Vektor gleicher Dimension. 1 Lexikon aller Wörter in der gesamten Dokumentsammlung (besser: Wortstämme, ohne Stoppwörter) Jedes Wort bekommt eine Dimension zugewiesen. Nummeriere dazu die Wörter aufsteigend ab 0: { Als :0, der :1, die :2, gewann :3, Hase :4, Igel :5, liefen :6, um :7, und :8, Wette :9} 2 Die Koordinaten des Vektors geben an, wie gut das jeweilige Wort das Dokument beschreibt. (in diesem Beispiel: Anzahl der Vorkommen) [1,3,1,1,1,2,1,1,1,1]

14 14 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Dokumentrepräsentationen Wie gut beschreibt ein Wort w das Dokument d? Absolute und relative Häufigkeit Term Frequency (TF) Gewichtetes Vorkommen eines Wortes w in einem Dokument d tf (w, d) = #w max x d {#x} Inverse Document Frequency (IDF) Wichtigkeit eines Wortes w generell weniger wichtig, wenn w in vielen Dokumenten d D vorkommt idf (w) = log D {d D:w d} TF-IDF Wichtigkeit eines Wortes w bzgl. Dokument d tfidf (w, d) = tf (w, d) idf (w)

15 15 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Dokumentrepräsentationen Abstand zwischen Dokumentvektoren Frage: Wie ähnlich sind sich zwei Dokumente (inhaltlich)? Anwendung: Clustering (Ähnliche Dokumente gehören zusammen), Information Retrieval (Ähnlichkeit zwischen Dokument und Suchanfrage), Bestimmte Klassifikationsverfahren (Ähnlichkeit zwischen Dokument und Prototyp).

16 16 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Dokumentrepräsentationen Abstandsmaße/Ähnlichkeitsmaße Euklidischer Abstand? Manhattan-Distanz? Besser: Kosinus-Maß (Kosinus des Winkels α zwischen den Vektoren):

17 Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten

18 18 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Worthäufigkeiten Zipfsches Gesetz Anzahl der Vorkommen der Wörter: umgekehrt proportional zum Häufigkeitsrang des Wortes. H(w r ) 1 r Folge: wenige sehr häufige Wörter Die meisten Wörter treten nur einmal (oder gar nicht) auf.

19 19 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Worthäufigkeiten Zipfsches Gesetz in Goethes Faust (1) 2500 '../output/tokens.dat' using 1:3 tokens (idealized) 2000 Haeufigkeit Rang

20 20 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Worthäufigkeiten Zipfsches Gesetz in Goethes Faust (2) '../output/tokens.dat' using 1:3 tokens (idealized) 1000 Haeufigkeit Rang

21 21 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Worthäufigkeiten Zipfsches Gesetz in Goethes Faust (3) non-stopwords stopwords stems tokens 1000 Haeufigkeit Rang

22 22 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Worthäufigkeiten N-Gramme Mitunter sind nicht Einzelwörter, sondern Abfolgen von Wörtern von Interesse N-Gramm: Tupel von N aufeinanderfolgenden Wörtern: (w 1, w 2,..., w n ) Beispiele: (Unigramm), Bigramm, Trigramm,... Einsatzbeispiel: Suchvorschläge bei Google Ebenfalls möglich: N-Gramme von Wortklassen (z.b. für POS-Tagging) N-Gramme von Zeichen (z.b. für Sprachenidentifikation)

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Text Mining Gliederung. Text Mining. OS Datamining SS 10. Thomas Boy. 25. Mai 2010 1 / 37

Text Mining Gliederung. Text Mining. OS Datamining SS 10. Thomas Boy. 25. Mai 2010 1 / 37 Gliederung Text Mining OS Datamining SS 10 Thomas Boy 25. Mai 2010 1 / 37 Gliederung 1 Gliederung 2 Einleitung Motivation Konkretisierung 3 Allgemeines Definiton Text Mining Ablaufschema 4 Anwendungen

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten

Mehr

Part-of-Speech- Tagging

Part-of-Speech- Tagging Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Clustering mit dem K-Means-Algorithmus (Ein Experiment)

Clustering mit dem K-Means-Algorithmus (Ein Experiment) Clustering mit dem K-Means- (Ein Experiment) Andreas Runk 7. März 2013 Index 1 2 3 4 5 Andreas Runk Clustering mit dem K-Means- 2/40 Ziele: des K-Means Finde/erstelle geeignetes Testcorpus möglichst gute

Mehr

Seminar Text- und Datamining Ausarbeitung

Seminar Text- und Datamining Ausarbeitung Seminar Text- und Datamining Ausarbeitung Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 15.05.2014 Gliederung 1 Abgabe 2 Struktur 3 Zitate 4 Sprachliches

Mehr

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik technische universität RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik Name Autor Ort und Datum Informatik: Linguistik: Methoden + Verfahren Forschungsfragen, Anforderungen

Mehr

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie) Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des

Mehr

Suche und Ranking von getaggten Medien in Bezug auf eine Eingabe-Webseite

Suche und Ranking von getaggten Medien in Bezug auf eine Eingabe-Webseite Institut für Informatik Arbeitsgruppe Staab/Sure Bachelorarbeit Suche und Ranking von getaggten Medien in Bezug auf eine Eingabe-Webseite vorgelegt von: Student: Hagen Metzler Studiengang: Computervisualistik

Mehr

Fortgeschrittene Computerintensive Methoden: Text Mining Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Fortgeschrittene Computerintensive Methoden: Text Mining Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Fortgeschrittene Computerintensive Methoden: Text Mining Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Text Mining

Mehr

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte. Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Korpusvorverarbeitung Beispiel: DIE ZEIT aufbereitet für journalistische Zwecke, mitgeliefertes

Mehr

Seminar Text- und Datamining Ausarbeitung

Seminar Text- und Datamining Ausarbeitung Seminar Text- und Datamining Ausarbeitung Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 24.04.2015 Gliederung 1 Abgabe 2 Struktur 3 Zitate 4 Sprachliches

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

Text Mining. Peter Kolb 25.6.2012

Text Mining. Peter Kolb 25.6.2012 Text Mining Peter Kolb 25.6.2012 Übersicht Big Data Information Retrieval vs. Text Mining Anwendungen Dokumentenähnlichkeit Termähnlichkeit Merkmalsauswahl und -Gewichtung Kategorisierung Clustering Big

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003

Mehr

Endliche Automaten zur Erkennung von Stoppwörtern

Endliche Automaten zur Erkennung von Stoppwörtern Endliche Automaten zur Erkennung von Stoppwörtern Vortrag von Christian Schwarz & Andreas Beyer im Seminar FSM zur Spracherkennung 06.07.2009 DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter

Mehr

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz-InsJtut für SozialwissenschaNen

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining 1 Volltextsuche und Text Mining Datum: 22.12.2009 Seminar: Einführung in die Computerlinguistik Referenten: Cornelia Baldauf, Valentin Heinz, Adriana Kosior 2 Agenda 1. Einführung a) Volltextsuche b) Text

Mehr

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Part-Of-Speech-Tagging mit Viterbi Algorithmus Part-Of-Speech-Tagging mit Viterbi Algorithmus HS Endliche Automaten Inna Nickel, Julia Konstantinova 19.07.2010 1 / 21 Gliederung 1 Motivation 2 Theoretische Grundlagen Hidden Markov Model Viterbi Algorithmus

Mehr

Datenbanken und Informationssysteme

Datenbanken und Informationssysteme Datenbanken und Informationssysteme Information Retrieval: Konzepte und Beispiele Burkhardt Renz Fachbereich MNI TH Mittelhessen Wintersemester 2015/16 Übersicht Konzepte des Information Retrieval Architektur

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

Sprachtechnologie in Suchmaschinen

Sprachtechnologie in Suchmaschinen Sprachtechnologie in Suchmaschinen Masterseminar Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Suchmaschinen Beispiele Übung 1 Wozu verwenden Sie Suchmaschinen?

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen SVM Textkategorisierung Katharina Morik, Claus Weihs LS 8 Informatik 24.5.2011 1 von 46 Gliederung LS 8 Informatik 1 Web Mining Information Retrieval 2 Textklassifikation

Mehr

NEUE SUCHE BEI SWISSLEX. Jörn Erbguth 1

NEUE SUCHE BEI SWISSLEX. Jörn Erbguth 1 NEUE SUCHE BEI SWISSLEX Jörn Erbguth 1 1 CTO, Swisslex Schweizerische Juristische Datenbank AG Rue du Mont Blanc 21, 1201 Genf jerbguth@swisslex.ch; www.swisslex.ch Schlagworte: Juristische Informationssysteme,

Mehr

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute Das TIGER-Korpus: Annotation und Exploration Stefanie Dipper Forschungskolloquium Korpuslinguistik, 11.11.03 Gliederung 1. TIGER-Korpus 2. Annotation 3. Visualisierung 4. Suche, Retrieval 5. Demo 6. Repräsentation

Mehr

Ähnlichkeitssuche auf XML-Daten

Ähnlichkeitssuche auf XML-Daten Ähnlichkeitssuche auf XML-Daten Christine Lehmacher Gabriele Schlipköther Übersicht Information Retrieval Vektorraummodell Gewichtung Ähnlichkeitsfunktionen Ähnlichkeitssuche Definition, Anforderungen

Mehr

Einführung Aufbau des Analyzer Analyse deutscher Texte. Analyse mit Lucene. Dr. Christian Herta. Mai, 2009 1 / 35

Einführung Aufbau des Analyzer Analyse deutscher Texte. Analyse mit Lucene. Dr. Christian Herta. Mai, 2009 1 / 35 Analyse mit Lucene Dr. Christian Herta Mai, 2009 1 / 35 Lernziele - Inhalt Einführung Analyse-Prozess Einuss der Analyse auf die Indizierung und Suche über QueryParser wichtigen Klassen und Methoden zur

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

NLP im Information Retrieval

NLP im Information Retrieval NLP im Information Retrieval Tokenisierung Stoppwortlisten Stemming, Morphologische Analyse, Kompositazerlegung Flaches Parsing: Phrasen, Mehrwortlexeme N-Gramme Lesartendisambiguierung Thesauri, Semantische

Mehr

Maschinelles Lernen mit Python. Thomas Proisl 2015-09-16 Professur für Korpuslinguistik

Maschinelles Lernen mit Python. Thomas Proisl 2015-09-16 Professur für Korpuslinguistik Maschinelles Lernen mit Python Thomas Proisl 2015-09-16 Professur für Korpuslinguistik Überblick Ziele dieses Tutorials Mini-Einführung in maschinelles Lernen Problemstellungen Lernverfahren Vorgehensweisen

Mehr

Wissensrepräsentation

Wissensrepräsentation Wissensrepräsentation Vorlesung Sommersemester 2008 9. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU Statistische Verfahren der KI (II) Klassifizieren von Dokumenten Informationsbeschaffung

Mehr

Information Retrieval [IR 4]

Information Retrieval [IR 4] Information Retrieval [IR 4] Übungen und Wiederholungsfragen zur Prüfungsvorbereitung Winfried Gödert / Klaus Lepsky 21. Oktober 2015 Institut für Informationswissenschaft Fachhochschule Köln Claudiusstraße

Mehr

Cluster-Labeling. Masterarbeit

Cluster-Labeling. Masterarbeit Bauhaus-Universität Weimar Fakultät Medien Studiengang Mediensysteme Cluster-Labeling Paradigmen und Validierung Masterarbeit Dennis Hoppe Matrikelnummer 30090 Geboren am 14. April 1983 in Hameln 1. Gutachter:

Mehr

Computerlinguistische Verfahren und Theorien für die Textproduktion in der Technischen Redaktion. Melanie Siegel

Computerlinguistische Verfahren und Theorien für die Textproduktion in der Technischen Redaktion. Melanie Siegel Computerlinguistische Verfahren und Theorien für die Textproduktion in der Technischen Redaktion Melanie Siegel Produktion technischer Dokumente Verständlichkeit Lesbarkeit Übersetzbarkeit Konsistenz Rechtschreibung

Mehr

Part of Speech Tagging. Linguistische Sicht. Carolin Deck

Part of Speech Tagging. Linguistische Sicht. Carolin Deck Part of Speech Tagging Linguistische Sicht Carolin Deck Gliederung 1. Begriffsklärung 2. Vorstellung zwei wichtiger Tagsets (STTS & PTTS) 3. Bedeutung des POS-Tagging für die Sprachwissenschaft 4. Tagzuweisung

Mehr

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz 02_Grundlagen Lucene Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz Was ist Lucene? (1) Apache Lucene is a high-performance, full-featured text search engine library written

Mehr

Fortgeschrittene Computerintensive Methoden

Fortgeschrittene Computerintensive Methoden Fortgeschrittene Computerintensive Methoden Einheit 9: Text Mining Matthias Schmid Manuel Eugster, Bettina Grün, Friedrich Leisch Institut für Statistik LMU München SoSe 2012 Text Mining - Zielsetzung

Mehr

Automatisches Verstehen gesprochener Sprache

Automatisches Verstehen gesprochener Sprache Automatisches Verstehen gesprochener Sprache 5. Sprachverstehen und Morphologie Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Gliederung Vorlesung Maschinelles Lernen SVM Textkategorisierung 1 Web Mining Information Retrieval Katharina Morik, Claus Weihs 24.5.2011 2 Textklassifikation 3 Verwendung des Modells zur Textklassifikation

Mehr

Aufbau eines Flexionslexikons für die Katalogbereinigung

Aufbau eines Flexionslexikons für die Katalogbereinigung Exposé der Studienarbeit: Aufbau eines Flexionslexikons für die Katalogbereinigung Eingereicht von: Johannes Kozakiewicz Institut für Informatik Humboldt-Universität zu Berlin Matr.Nr.: 186778 kozakiewicz@gmx.de

Mehr

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. 3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen

Mehr

Textmining Clustering von Dokumenten

Textmining Clustering von Dokumenten Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist

Mehr

Text Mining. http://www.know-center.at/swat. Michael Granitzer mgrani@know-center.at. Know-Center - gefördert im Programm IWM TU Graz

Text Mining. http://www.know-center.at/swat. Michael Granitzer mgrani@know-center.at. Know-Center - gefördert im Programm IWM TU Graz Text Mining Michael Granitzer mgrani@know-center.at /swat Know-Center - gefördert im Programm IWM TU Graz Inhalt Ein paar Zahlen zur Motivation Vorverarbeitung von Texten Vektorraummodell Maschinelle Lernmethoden

Mehr

Christian Thomas Tutorial: Korpusrecherche im DTA mithilfe von DDC. www.deutschestextarchiv.de

Christian Thomas Tutorial: Korpusrecherche im DTA mithilfe von DDC. www.deutschestextarchiv.de Christian Thomas Tutorial: Korpusrecherche im DTA mithilfe von DDC Suchmaschine DDC, Linguistische Analyse Suchmaschine DDC (Dialing/DWDS-Concordancer) unscharfe Suchen, reguläre Ausdrücke, Metadatenfilter,

Mehr

Übungsaufgaben mit Lösungsvorschlägen

Übungsaufgaben mit Lösungsvorschlägen Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Sentimentanalyse von Tweets mit Methoden des SemEval 2013/2014. Bachelorarbeit

Sentimentanalyse von Tweets mit Methoden des SemEval 2013/2014. Bachelorarbeit Bauhaus-Universität Weimar Fakultät Medien Studiengang Mediensysteme Sentimentanalyse von Tweets mit Methoden des SemEval 2013/2014 Bachelorarbeit Michel Büchner Matrikelnummer 80030 geb. am: 13.05.1988

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Data- und Text Mining. 2014 Prof. A. Müller, PMP FH Kaiserslautern

Data- und Text Mining. 2014 Prof. A. Müller, PMP FH Kaiserslautern Data- und Text Mining 2014 FH Kaiserslautern Text Mining - Grundlagen Indexierung Data-Structure inverted file Algorithmen Statistische Indexierung Zipf sche Gesetz Termhäufigkeiten Vektor-basierte Suche

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Prototypenentwicklung zur Identifikation gleichartiger Nachrichtenticker am Beispiel des Gashandels

Prototypenentwicklung zur Identifikation gleichartiger Nachrichtenticker am Beispiel des Gashandels Prototypenentwicklung zur Identifikation gleichartiger Nachrichtenticker am Beispiel des Gashandels TDWI Konferenz München, 24.06.2014 M.Sc.Susann Dreikorn Institut für Wirtschaftsinformatik, 2014 Agenda

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

4. Nicht-Probabilistische Retrievalmodelle

4. Nicht-Probabilistische Retrievalmodelle 4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr

1 Grundlagen zur Arbeit mit Text

1 Grundlagen zur Arbeit mit Text 2. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 mit Musterlösungen Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 30. April 2008 1 Grundlagen zur

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Syntax WS 2006/2007 Manfred Pinkal Einführung in die Computerlinguistik 2006/2007 M. Pinkal UdS 1 Morphologie und Syntax Gegenstand der Morphologie ist die Struktur

Mehr

Text- und Datamining

Text- und Datamining Text- und Datamining Verwaltungtechnisches und Themenübersicht Jan Schrader, Morgan Harvey, Martin Hacker .@cs.fau.de Organisatorisches Folien eine Woche vor Präsentation abgeben (per Email)

Mehr

Universität ulm. Seminar Data Mining. Seminararbeit über Text Mining. Matthias Stöckl

Universität ulm. Seminar Data Mining. Seminararbeit über Text Mining. Matthias Stöckl Universität ulm Seminar Data Mining Seminararbeit über Text Mining Matthias Stöckl 1 Inhaltsverzeichnis: 1. Einführung 2. Grundlagen 3. Erschließung des Dokumenteninhaltes 3.1. Schlüsselwortextraktion

Mehr

Semantische Analyse und automatische Gewinnung von branchenspezischem Vokabular für E-Commerce. Daewoo Kim

Semantische Analyse und automatische Gewinnung von branchenspezischem Vokabular für E-Commerce. Daewoo Kim Semantische Analyse und automatische Gewinnung von branchenspezischem Vokabular für E-Commerce Daewoo Kim München 2007 Semantische Analyse und automatische Gewinnung von branchenspezischem Vokabular für

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 16. November 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

Logo MIA. Ein cloud basierter Marktplatz für Informationen und Analysen auf dem deutschsprachigen Web

Logo MIA. Ein cloud basierter Marktplatz für Informationen und Analysen auf dem deutschsprachigen Web Logo MIA Ein cloud basierter Marktplatz für Informationen und Analysen auf dem deutschsprachigen Web MIA Konsortium Ausgangslage Das deutschsprachige Web mit derzeit mehr als sechs Milliarden Webseiten

Mehr

1 Boolesches Retrieval (2)

1 Boolesches Retrieval (2) 2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 20. Januar 2005 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 0 Themenübersicht

Mehr

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass:

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Text-Clustern 1 Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen

Mehr

Suchmaschinen-Optimierung für Webentwickler Grundlagen, Ranking optimieren, Tipps und Tricks

Suchmaschinen-Optimierung für Webentwickler Grundlagen, Ranking optimieren, Tipps und Tricks Sebastian Erlhofer Suchmaschinen-Optimierung für Webentwickler Grundlagen, Ranking optimieren, Tipps und Tricks Galileo Press Vorwort zur zweiten Auflage 13 Vorwort 15 1.1 Webkataloge 19 1.1.1 Auswahl

Mehr

Elementare statistische Methoden

Elementare statistische Methoden Elementare statistische Methoden Vorlesung Computerlinguistische Techniken Alexander Koller 28. November 2014 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen? Ziel

Mehr

Textdokument-Suche auf dem Rechner Implementierungsprojekt

Textdokument-Suche auf dem Rechner Implementierungsprojekt Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick

Mehr

Korpuslinguistik Grundlagen Korpusrecherchemethoden

Korpuslinguistik Grundlagen Korpusrecherchemethoden Methoden der Korpusanalyse Erstellung von Konkordanzen Erzeugung von Wortlisten mit Frequenzangaben Ermittlung von hochfrequenten Wortgruppen (Clusteranalyse) Berechnung von Kookkurrenzen Ermittlung von

Mehr

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung

Mehr

Programmiersprachen und Übersetzer

Programmiersprachen und Übersetzer Programmiersprachen und Übersetzer Sommersemester 2010 19. April 2010 Theoretische Grundlagen Problem Wie kann man eine unendliche Menge von (syntaktisch) korrekten Programmen definieren? Lösung Wie auch

Mehr

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014 n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014 Wahrscheinlichkeit und Sprache Ausgangsfrage: Nächstes Wort vorhersagen. Sprache als Zufallsprozess: Für jede

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte

Mehr

Master of Science Informatik an der FAU

Master of Science Informatik an der FAU Master of Science Informatik an der FAU Universität Erlangen-Nürnberg 14. Oktober 2013 Master of Science Informatik an der FAU 1/14 Gliederung 1 Rahmenbedingungen 2 Säulen 3 Vertiefungsrichtungen 4 Nebenfach

Mehr

Grundbegriffe des Information Retrieval

Grundbegriffe des Information Retrieval Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,

Mehr

2. Twitterdaten Korpuserstellung

2. Twitterdaten Korpuserstellung 2. Twitterdaten Korpuserstellung Seminar Computerlinguistische Analyse von Twitterdaten Tatjana Scheffler, Universität Potsdam tatjana.scheffler@uni-potsdam.de! 17.4.2013 Heute Deutsche Twitterdaten /

Mehr

Ein Vergleich der Methoden automatisierter Dublettenerkennung.

Ein Vergleich der Methoden automatisierter Dublettenerkennung. Universität Hamburg Fachbereich Informatik Arbeitsbereich Softwaretechnik Diplomarbeit Ein Vergleich der Methoden automatisierter Dublettenerkennung. Christoph Kurek Rheinaustr. 11 68163 Mannheim E-Mail:

Mehr

Ein bisschen Werbung. Einführung in die Morphologie Einleitung, Grundbegriffe I. Morphologie. 'Morphologie' Was ist ein Wort? Was ist ein Wort?

Ein bisschen Werbung. Einführung in die Morphologie Einleitung, Grundbegriffe I. Morphologie. 'Morphologie' Was ist ein Wort? Was ist ein Wort? Ein bisschen Werbung Einführung in die Morphologie Einleitung, Grundbegriffe I Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2005 "Morphology is the conceptual centre of linguistics. This

Mehr

Kapitel 23 Strukturinformationen in Dokumenten. HHU Düsseldorf, WS 2008/09 Information Retrieval 368

Kapitel 23 Strukturinformationen in Dokumenten. HHU Düsseldorf, WS 2008/09 Information Retrieval 368 Kapitel 23 Strukturinformationen in Dokumenten HHU Düsseldorf, WS 2008/09 Information Retrieval 368 Erkennung von Strukturinformationen in Web- Dokumenten Aufgaben: Kreation von Metadaten optimal: Eintragen

Mehr

Ausarbeitung Twitter as a Corpus for Sentiment Analysis and Opinion Mining

Ausarbeitung Twitter as a Corpus for Sentiment Analysis and Opinion Mining Ausarbeitung Twitter as a Corpus for Sentiment Analysis and Opinion Mining Wissenschaftliches Arbeiten (2014) Aufgabe 5 Kai Kühne 798797 Beuth Hochschule für Technik Berlin Fachbereich VI Informatik und

Mehr

Industrie- und Handelskammer Stuttgart

Industrie- und Handelskammer Stuttgart Industrie- und Handelskammer Stuttgart SUCHMASCHINEN-OPTIMIERUNG die vorderen Plätze bei Google, Yahoo & Co 1. Über Beyond Media 2. Erste Schritte 3. freundliche 4. Arbeitsweise 5. Bewertungsmethoden 6.

Mehr

Korpuslinguistik Grundlagen Korpora

Korpuslinguistik Grundlagen Korpora Was ist ein Korpus? Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. Tübingen: Narr, 2006. S. 7. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 1]

Mehr

Clusteranalyse von Nachrichtenartikeln

Clusteranalyse von Nachrichtenartikeln Köln, den 7. Oktober 2011 Studiengang Informationsverarbeitung Sommersemester 2011 Sprachliche Informationsverarbeitung Prose i ar: Co puterli guistik II bei Jürgen Hermes M.A. Clusteranalyse von Nachrichtenartikeln

Mehr

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg Information Retrieval Modelle und neue Technologien Prof. Dr. Wolfgang Riggert FDH Flensburg Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien Retrievalmodell - allgemein Ein Retrievalmodell

Mehr

2. Textvorverarbeitung. nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments

2. Textvorverarbeitung. nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments Textvorverarbeitung 2. Textvorverarbeitung nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments auszudrücken deswegen lohnt es sich oft, eine Vorverarbeitung durchzuführen

Mehr

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Gliederung Einleitung Problemstellungen Ansätze & Herangehensweisen Anwendungsbeispiele Zusammenfassung 2 Gliederung

Mehr

Kay-Michael Würzner Lothar Lemnitzer Bryan Jurish Alexander Geyken

Kay-Michael Würzner Lothar Lemnitzer Bryan Jurish Alexander Geyken Kollaborative Erstellung eines annotierten Korpus als Grundlage für die Anwendung statistischer Ansätze der automatischen Sprachverarbeitung auf internetbasierte Kommunikation Kay-Michael Würzner Lothar

Mehr

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval

Mehr

Information-Retrieval: Vektorraum-Modell

Information-Retrieval: Vektorraum-Modell Information-Retrieval: Vektorraum-Modell Claes Neuefeind Fabian Steeg 03. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

5. Information Retrieval

5. Information Retrieval 5. Information Retrieval Inhalt 5.1 Information Retrieval 5.2 Vorverarbeitung der Dokumente 5.3 Boolesches Retrieval 5.4 Vektorraum-Modell 5.5 Evaluation 5.6 Implementierung 5.7 Websuche 2 5.1 Information

Mehr

Inhalt. 1 Einführung... 11. 2 Funktionsweise von Suchmaschinen... 21. 3 So werden Suchergebnisse gewichtet... 39

Inhalt. 1 Einführung... 11. 2 Funktionsweise von Suchmaschinen... 21. 3 So werden Suchergebnisse gewichtet... 39 1 Einführung.......................................................... 11 1.1 Eine kurze Geschichte von fast allem.................................. 12 1.2 Die Bedeutung von Suchmaschinen gestern, heute

Mehr

1. Vorlesung,

1. Vorlesung, 1. Vorlesung, 16.10.2006 Einführung und Motivation, Beispiel Information versus Daten Grundlegende Konzepte Aufgaben des Anwenders Logische Sicht auf Dokumente Dokumentvorverarbeitung Dokumentsuche mit

Mehr