Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
|
|
- Irmela Kohler
- vor 7 Jahren
- Abrufe
Transkript
1 Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg
2 Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten
3 Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten
4 Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten
5 Vorverarbeitung Segmentierung Tokenisierung Zerlegung eines Textes in einzelne Wörter (Tokens) Satzzeichen werden als eigene Tokens behandelt Einfacher Tokenizer in NLTK: import nltk tokens = nltk.word_tokenize( Dies ist ein Satz. ) Sonderfälle: Abkürzungen URLs und -Adressen Mehrwortlexeme, Bindestrich-Komposita Zahlengruppen 5 / 22
6 Vorverarbeitung Segmentierung Tokenisierung Zerlegung eines Textes in einzelne Wörter (Tokens) Satzzeichen werden als eigene Tokens behandelt Einfacher Tokenizer in NLTK: import nltk tokens = nltk.word_tokenize( Dies ist ein Satz. ) Sonderfälle: Abkürzungen URLs und -Adressen Mehrwortlexeme, Bindestrich-Komposita Zahlengruppen 5 / 22
7 Vorverarbeitung Segmentierung Tokenisierung Zerlegung eines Textes in einzelne Wörter (Tokens) Satzzeichen werden als eigene Tokens behandelt Einfacher Tokenizer in NLTK: import nltk tokens = nltk.word_tokenize( Dies ist ein Satz. ) Sonderfälle: Abkürzungen URLs und -Adressen Mehrwortlexeme, Bindestrich-Komposita Zahlengruppen 5 / 22
8 Vorverarbeitung Segmentierung Satzgrenzenerkennung Hinweise für Satzgrenze: Satzzeichen.,!? Nächstes Wort großgeschrieben Schwierigkeiten: mehrdeutige Satzzeichen (Punkt nach Abkürzungen) Eigennamen und Nomen (im Deutschen) immer groß Eingeschachtelte Sätze (Parenthesen, Zitate)... 6 / 22
9 Vorverarbeitung Segmentierung Satzgrenzenerkennung Hinweise für Satzgrenze: Satzzeichen.,!? Nächstes Wort großgeschrieben Schwierigkeiten: mehrdeutige Satzzeichen (Punkt nach Abkürzungen) Eigennamen und Nomen (im Deutschen) immer groß Eingeschachtelte Sätze (Parenthesen, Zitate)... 6 / 22
10 Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten
11 Vorverarbeitung Normalisierung Grundformenreduktion Ziel: Unterschiedliche flektierte Wortformen sollen als gleiches Wort (Lexem) erkannt werden. a) Lemmatisierung Ziel: Ermittle das Lemma Vollformenlexikon und/oder linguistische Analyse der morphologischen Wortuntereinheiten Implementierung z.b. mit Hilfe endlicher Automaten b) Stemming Ziel: Abbildung auf denselben Wortrumpf (idealerweise Wortstamm) regelbasiert/heuristisch simple Transformationsregeln 8 / 22
12 Vorverarbeitung Normalisierung Grundformenreduktion Ziel: Unterschiedliche flektierte Wortformen sollen als gleiches Wort (Lexem) erkannt werden. a) Lemmatisierung Ziel: Ermittle das Lemma Vollformenlexikon und/oder linguistische Analyse der morphologischen Wortuntereinheiten Implementierung z.b. mit Hilfe endlicher Automaten b) Stemming Ziel: Abbildung auf denselben Wortrumpf (idealerweise Wortstamm) regelbasiert/heuristisch simple Transformationsregeln 8 / 22
13 Vorverarbeitung Normalisierung Grundformenreduktion Ziel: Unterschiedliche flektierte Wortformen sollen als gleiches Wort (Lexem) erkannt werden. a) Lemmatisierung Ziel: Ermittle das Lemma Vollformenlexikon und/oder linguistische Analyse der morphologischen Wortuntereinheiten Implementierung z.b. mit Hilfe endlicher Automaten b) Stemming Ziel: Abbildung auf denselben Wortrumpf (idealerweise Wortstamm) regelbasiert/heuristisch simple Transformationsregeln 8 / 22
14 Vorverarbeitung Normalisierung Porter-Stemmer Bekannter, simpler Stemming-Algorithmus: In NLTK: Abschneiden von Suffixen Plätten von Umlauten Weitere kleine Anpassungen import nltk stemmer = nltk.stem.snowball.snowballstemmer( german ) stemmer.stem(u Übung ) 9 / 22
15 Vorverarbeitung Normalisierung Porter-Stemmer Bekannter, simpler Stemming-Algorithmus: In NLTK: Abschneiden von Suffixen Plätten von Umlauten Weitere kleine Anpassungen import nltk stemmer = nltk.stem.snowball.snowballstemmer( german ) stemmer.stem(u Übung ) 9 / 22
16 Vorverarbeitung Normalisierung Weitere Normalisierung Abgleich von Schreibvarianten Groß- und Kleinschreibung Schreibfehler Entfernen von Stoppwörtern ggf. Auflösen von Abkürzungen ggf. Entfernen von Satzzeichen 10 / 22
17 Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten
18 12 / 22 Dokumentrepräsentationen Dokumente als Bag of Words Reihenfolge der Wörter unwichtig Grammatik unwichtig Zähle, wie oft jedes Wort vorkommt Als der Hase und der Igel um die Wette liefen, gewann der Igel. { Als :1, der :3, die :1, gewann :1, Hase :1, Igel :2, liefen :1, um :1, und :1, Wette :1}
19 12 / 22 Dokumentrepräsentationen Dokumente als Bag of Words Reihenfolge der Wörter unwichtig Grammatik unwichtig Zähle, wie oft jedes Wort vorkommt Als der Hase und der Igel um die Wette liefen, gewann der Igel. { Als :1, der :3, die :1, gewann :1, Hase :1, Igel :2, liefen :1, um :1, und :1, Wette :1}
20 13 / 22 Dokumentrepräsentationen Vektorraum-Modell Darstellung jedes Dokuments durch einen Vektor gleicher Dimension. 1 Lexikon aller Wörter in der gesamten Dokumentsammlung (besser: Wortstämme, ohne Stoppwörter) Jedes Wort bekommt eine Dimension zugewiesen. Nummeriere dazu die Wörter aufsteigend ab 0: { Als :0, der :1, die :2, gewann :3, Hase :4, Igel :5, liefen :6, um :7, und :8, Wette :9} 2 Die Koordinaten des Vektors geben an, wie gut das jeweilige Wort das Dokument beschreibt. (in diesem Beispiel: Anzahl der Vorkommen) [1,3,1,1,1,2,1,1,1,1]
21 13 / 22 Dokumentrepräsentationen Vektorraum-Modell Darstellung jedes Dokuments durch einen Vektor gleicher Dimension. 1 Lexikon aller Wörter in der gesamten Dokumentsammlung (besser: Wortstämme, ohne Stoppwörter) Jedes Wort bekommt eine Dimension zugewiesen. Nummeriere dazu die Wörter aufsteigend ab 0: { Als :0, der :1, die :2, gewann :3, Hase :4, Igel :5, liefen :6, um :7, und :8, Wette :9} 2 Die Koordinaten des Vektors geben an, wie gut das jeweilige Wort das Dokument beschreibt. (in diesem Beispiel: Anzahl der Vorkommen) [1,3,1,1,1,2,1,1,1,1]
22 13 / 22 Dokumentrepräsentationen Vektorraum-Modell Darstellung jedes Dokuments durch einen Vektor gleicher Dimension. 1 Lexikon aller Wörter in der gesamten Dokumentsammlung (besser: Wortstämme, ohne Stoppwörter) Jedes Wort bekommt eine Dimension zugewiesen. Nummeriere dazu die Wörter aufsteigend ab 0: { Als :0, der :1, die :2, gewann :3, Hase :4, Igel :5, liefen :6, um :7, und :8, Wette :9} 2 Die Koordinaten des Vektors geben an, wie gut das jeweilige Wort das Dokument beschreibt. (in diesem Beispiel: Anzahl der Vorkommen) [1,3,1,1,1,2,1,1,1,1]
23 14 / 22 Dokumentrepräsentationen Wie gut beschreibt ein Wort w das Dokument d? Absolute und relative Häufigkeit Term Frequency (TF) Gewichtetes Vorkommen eines Wortes w in einem Dokument d tf (w, d) = #w max x d {#x} Inverse Document Frequency (IDF) Wichtigkeit eines Wortes w generell weniger wichtig, wenn w in vielen Dokumenten d D vorkommt idf (w) = log D {d D:w d} TF-IDF Wichtigkeit eines Wortes w bzgl. Dokument d tfidf (w, d) = tf (w, d) idf (w)
24 14 / 22 Dokumentrepräsentationen Wie gut beschreibt ein Wort w das Dokument d? Absolute und relative Häufigkeit Term Frequency (TF) Gewichtetes Vorkommen eines Wortes w in einem Dokument d tf (w, d) = #w max x d {#x} Inverse Document Frequency (IDF) Wichtigkeit eines Wortes w generell weniger wichtig, wenn w in vielen Dokumenten d D vorkommt idf (w) = log D {d D:w d} TF-IDF Wichtigkeit eines Wortes w bzgl. Dokument d tfidf (w, d) = tf (w, d) idf (w)
25 14 / 22 Dokumentrepräsentationen Wie gut beschreibt ein Wort w das Dokument d? Absolute und relative Häufigkeit Term Frequency (TF) Gewichtetes Vorkommen eines Wortes w in einem Dokument d tf (w, d) = #w max x d {#x} Inverse Document Frequency (IDF) Wichtigkeit eines Wortes w generell weniger wichtig, wenn w in vielen Dokumenten d D vorkommt idf (w) = log D {d D:w d} TF-IDF Wichtigkeit eines Wortes w bzgl. Dokument d tfidf (w, d) = tf (w, d) idf (w)
26 14 / 22 Dokumentrepräsentationen Wie gut beschreibt ein Wort w das Dokument d? Absolute und relative Häufigkeit Term Frequency (TF) Gewichtetes Vorkommen eines Wortes w in einem Dokument d tf (w, d) = #w max x d {#x} Inverse Document Frequency (IDF) Wichtigkeit eines Wortes w generell weniger wichtig, wenn w in vielen Dokumenten d D vorkommt idf (w) = log D {d D:w d} TF-IDF Wichtigkeit eines Wortes w bzgl. Dokument d tfidf (w, d) = tf (w, d) idf (w)
27 15 / 22 Dokumentrepräsentationen Abstand zwischen Dokumentvektoren Frage: Wie ähnlich sind sich zwei Dokumente (inhaltlich)? Anwendung: Clustering (Ähnliche Dokumente gehören zusammen), Information Retrieval (Ähnlichkeit zwischen Dokument und Suchanfrage), Bestimmte Klassifikationsverfahren (Ähnlichkeit zwischen Dokument und Prototyp).
28 16 / 22 Dokumentrepräsentationen Abstandsmaße/Ähnlichkeitsmaße Euklidischer Abstand? Manhattan-Distanz? Besser: Kosinus-Maß (Kosinus des Winkels α zwischen den Vektoren):
29 16 / 22 Dokumentrepräsentationen Abstandsmaße/Ähnlichkeitsmaße Euklidischer Abstand? Manhattan-Distanz? Besser: Kosinus-Maß (Kosinus des Winkels α zwischen den Vektoren): α
30 Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten
31 18 / 22 Worthäufigkeiten Zipfsches Gesetz Anzahl der Vorkommen der Wörter: umgekehrt proportional zum Häufigkeitsrang des Wortes. H(w r ) 1 r Folge: wenige sehr häufige Wörter Die meisten Wörter treten nur einmal (oder gar nicht) auf.
32 19 / 22 Worthäufigkeiten Zipfsches Gesetz in Goethes Faust (1) 2500 '../output/tokens.dat' using 1:3 tokens (idealized) 2000 Haeufigkeit Rang
33 20 / 22 Worthäufigkeiten Zipfsches Gesetz in Goethes Faust (2) '../output/tokens.dat' using 1:3 tokens (idealized) 1000 Haeufigkeit Rang
34 21 / 22 Worthäufigkeiten Zipfsches Gesetz in Goethes Faust (3) non-stopwords stopwords stems tokens 1000 Haeufigkeit Rang
35 22 / 22 Worthäufigkeiten N-Gramme Mitunter sind nicht Einzelwörter, sondern Abfolgen von Wörtern von Interesse N-Gramm: Tupel von N aufeinanderfolgenden Wörtern: (w 1, w 2,..., w n ) Beispiele: (Unigramm), Bigramm, Trigramm,... Einsatzbeispiel: Suchvorschläge bei Google Ebenfalls möglich: N-Gramme von Wortklassen (z.b. für POS-Tagging) N-Gramme von Zeichen (z.b. für Sprachenidentifikation)
36 22 / 22 Worthäufigkeiten N-Gramme Mitunter sind nicht Einzelwörter, sondern Abfolgen von Wörtern von Interesse N-Gramm: Tupel von N aufeinanderfolgenden Wörtern: (w 1, w 2,..., w n ) Beispiele: (Unigramm), Bigramm, Trigramm,... Einsatzbeispiel: Suchvorschläge bei Google Ebenfalls möglich: N-Gramme von Wortklassen (z.b. für POS-Tagging) N-Gramme von Zeichen (z.b. für Sprachenidentifikation)
37 22 / 22 Worthäufigkeiten N-Gramme Mitunter sind nicht Einzelwörter, sondern Abfolgen von Wörtern von Interesse N-Gramm: Tupel von N aufeinanderfolgenden Wörtern: (w 1, w 2,..., w n ) Beispiele: (Unigramm), Bigramm, Trigramm,... Einsatzbeispiel: Suchvorschläge bei Google Ebenfalls möglich: N-Gramme von Wortklassen (z.b. für POS-Tagging) N-Gramme von Zeichen (z.b. für Sprachenidentifikation)
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung
MehrInformation Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
MehrEinführung in die Computerlinguistik Information Retrieval: tf.idf
Einführung in die Computerlinguistik Information Retrieval: tf.idf Dr. Benjamin Roth & Annemarie Friedrich Centrum für Infomations- und Sprachverarbeitung LMU München WS 2016/2017 Referenzen Dan Jurafsky
MehrInformation Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrNachteile Boolesches Retrieval
Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge
MehrInformation Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik
Rückblick Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Präzision und Ausbeute als elementare Gütemaße Zerlegung und Normalisierung
MehrRetrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)
Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des
MehrStemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig
Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus
MehrVerschlagwortung digitaler Texte
Verschlagwortung digitaler Texte Verschlagwortung Zuordnung von Schlagwörtern zu einem Dokument (Text) zur Erschließung der darin enthaltenen Sachverhalte Manuelle Verschlagwortung Schlagwörter meist aus
MehrSEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.
SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit
MehrInformation Retrieval. Domenico Strigari Dominik Wißkirchen
Information Retrieval Domenico Strigari Dominik Wißkirchen 2009-12-22 Definition Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies
Mehr3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.
3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen
MehrNLP im Information Retrieval
NLP im Information Retrieval Tokenisierung Stoppwortlisten Stemming, Morphologische Analyse, Kompositazerlegung Flaches Parsing: Phrasen, Mehrwortlexeme N-Gramme Lesartendisambiguierung Thesauri, Semantische
MehrKlassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)
Klassen von Retrieval-Modellen Boolesche und Vektorraum- Modelle Boolesche Modelle (Mengen-basiert) Erweitertes Boolesches Modell Vektorraummodelle (vector space) (statistisch-algebraischer Ansatz) Latente
MehrBoolesche- und Vektorraum- Modelle
Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle
MehrMachine Learning and Data Mining Summer 2015 Exercise Sheet 11
Ludwig-Maximilians-Universitaet Muenchen 0.06.205 Institute for Informatics Prof. Dr. Volker Tresp Gregor Jossé Johannes Niedermayer Machine Learning and Data Mining Summer 205 Exercise Sheet Presentation
MehrAufbau eines Flexionslexikons für die Katalogbereinigung
Exposé der Studienarbeit: Aufbau eines Flexionslexikons für die Katalogbereinigung Eingereicht von: Johannes Kozakiewicz Institut für Informatik Humboldt-Universität zu Berlin Matr.Nr.: 186778 kozakiewicz@gmx.de
Mehr5. Information Retrieval
5. Information Retrieval Inhalt 5.1 Information Retrieval 5.2 Vorverarbeitung der Dokumente 5.3 Boolesches Retrieval 5.4 Vektorraum-Modell 5.5 Evaluation 5.6 Implementierung 5.7 Websuche 2 5.1 Information
MehrAutomatisches Verstehen gesprochener Sprache
Automatisches Verstehen gesprochener Sprache 3. Sprachmodellierung Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
MehrWMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
Mehr1 Erkennung von Wortfolgen. 2 Bewertung von Wortfolgen. 3 Sprachmodelle in der Praxis. Erkennung von Wortfolgen
Automatisches Verstehen gesprochener Sprache. Sprachmodellierung Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
MehrTextmining Clustering von Dokumenten
Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist
MehrAlgorithmische Anwendungen WS 05/06 Document Ranking
Algorithmische Anwendungen WS 05/06 Document Ranking Ulrich Schulte (ai641@gm.fh-koeln.de) Harald Wendel (ai647@gm.fh-koeln.de) Seite 1/17 Inhaltsverzeichnis Algorithmische Anwendungen WS 05/06 1. Document
MehrMöglichkeiten der automatischen Sprachverarbeitung mit Django
Möglichkeiten der automatischen Sprachverarbeitung mit März 2009 / Leipzig / Python Stammtisch Möglichkeiten der automatischen Sprachverarbeitung mit Inhalt 1 2 3 4 Möglichkeiten der automatischen Sprachverarbeitung
MehrWas ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora
Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik
MehrSeminar Textmining SS 2015 Grundlagen des Maschinellen Lernens
Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining
Mehr1 Information Retrieval Grundlagen
1. Übung zur Vorlesung Internet-Suchmaschinen im Wintersemester 2007/2008 mit Lösungsvorschlägen Dr. Andreas Hotho, Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 01. November 2007 1 Information Retrieval
MehrSprachsynthese: Textnormalisierung
Sprachsynthese: Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu@phonetik.uni-muenchen.de 15. Oktober 2014 Inhalt, Finite-State-Methoden Disambiguierung des
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
Mehr2. Textvorverarbeitung. nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments
Textvorverarbeitung 2. Textvorverarbeitung nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments auszudrücken deswegen lohnt es sich oft, eine Vorverarbeitung durchzuführen
MehrFederated Search: Integration von FAST DataSearch und Lucene
Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation
MehrClusteranalyse von Nachrichtenartikeln
Köln, den 7. Oktober 2011 Studiengang Informationsverarbeitung Sommersemester 2011 Sprachliche Informationsverarbeitung Prose i ar: Co puterli guistik II bei Jürgen Hermes M.A. Clusteranalyse von Nachrichtenartikeln
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrKLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR ÜBUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM
KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR ÜBUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM VOR NACH MATRIKELNUMMER: STUDIENGANG: B.Sc. Computerlinguistik, B.Sc. Informatik,
MehrText-Mining: Datenaufbereitung und -repräsentation
Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert
Mehr1 Boolesches Retrieval (2)
2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des
Mehr2.4 Effiziente Datenstrukturen
2.4 Effiziente Datenstrukturen Effizienz des Systems bezeichnet den sparsamer Umgang mit Systemressourcen und die Skalierbarkeit auch über große Kollektionen. Charakteristische Werte für Effizienz sind
MehrKlassifikation von Textabschnitten
Klassifikation von Textabschnitten Am Beispiel von Stellenanzeigen (JASC - Job Ads Section Classifier) Gliederung 1. Einführung: Zu welchem Zweck machen wir das? 2. Klassifikation ein kurzer Überblick
MehrT = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
MehrAutomatisches Verstehen gesprochener Sprache
Automatisches Verstehen gesprochener Sprache 5. Sprachverstehen und Morphologie Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrThema: Prototypische Implementierung des Vektormodells
Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Hauptseminar: Information Retrieval WS 06/07 Thema: Prototypische Implementierung des Vektormodells Sascha Orf Carina Silberer Cäcilia
MehrKapitel 19 Textstatistik. HHU Düsseldorf, WS 2008/09 Information Retrieval 287
Kapitel 19 Textstatistik HHU Düsseldorf, WS 2008/09 Information Retrieval 287 Die These von Luhn: Termhäufigkeit als Signifikanzfaktor Luhn, H.P. (1957): A statistical approach to mechanized encoding and
MehrInternet-Suchmaschinen Probabilistische Retrievalmodelle
Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.
MehrImplementierung des Vektor Modells
Implementierung des Vektor Modells Alex Judea Jens Burkhardt Titel des Seminars Information Retrieval WS 07/08 Seminar für Computerlinguistik Institut für Allgemeine und Angewandte Sprachwissenschaft Universität
MehrInformation Retrieval und Question Answering
und Question Answering Kai Kugler 19. November 2009 Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem
MehrDuplikatanalyse. Ein Vortrag von. Susanne O'Shaughnessy und Michaela Geierhos
Duplikatanalyse Ein Vortrag von Susanne O'Shaughnessy und Michaela Geierhos 13.07.2005 Duplikaten Elimination Problem: Mit dem explosionsartigen Anwachsen des WWW ist eine riesige Dokumentenmenge zugänglich.
MehrKLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR ÜBUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM
KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR ÜBUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM VOR NACH MATRIKELNUMMER: STUDIENGANG: B.Sc. Computerlinguistik, B.Sc. Informatik,
MehrGrundbegriffe des Information Retrieval
Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,
MehrInhaltsverzeichnis WORTKOMBINATIONEN... 1
Wortkombinationen Inhaltsverzeichnis WORTKOMBINATIONEN... 1 Wortkombinationen Was leistet die Funktion Wortkombinationen? Die Funktion Wortkombinationen liefert eine Übersicht, welche Kombinationen von
Mehrtf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009
tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten
MehrProjektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten
Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich
MehrInformation Retrieval
Information Retrieval Invertierter Index, Boolesches Retrieval Stefan Birkner 7. September 2010 Bisheriger Stand Anfrage Dokumente Tokenisierung Stoppworte entfernen Stemming Tokenisierung Stoppworte entfernen
MehrSprachsynthese: Textnormalisierung
Sprachsynthese: (Änderungen von F. Schiel 2016) Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu schiel@phonetik.uni-muenchen.de 24. Oktober 2016 Inhalt = Vorverarbeitung
MehrÜbersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene
Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:
Mehr5. Information Retrieval
5. Information Retrieval Inhalt 5.1 Information Retrieval 5.2 Vorverarbeitung der Dokumente 5.3 Boolesches Retrieval 5.4 Vektorraum-Modell 5.5 Evaluation 5.6 Implementierung 5.7 Websuche 2 5.1 Information
MehrFortgeschrittene Computerintensive Methoden
Fortgeschrittene Computerintensive Methoden Einheit 9: Text Mining Matthias Schmid Manuel Eugster, Bettina Grün, Friedrich Leisch Institut für Statistik LMU München SoSe 2012 Text Mining - Zielsetzung
MehrVortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)
Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess
MehrStemmingverfahren. Éva Mújdricza Ganna Syrota. Ruprecht-Karls-Universität Heidelberg WS07/08
Ruprecht-Karls-Universität Heidelberg WS07/08 Stemmingverfahren Éva Mújdricza Ganna Syrota Information Retrieval, HS, WS07/08 Dozentin: PD Dr. Karin Haenelt 04.02.2008 Übersicht I: Stemmingverfahren Grundlagen
MehrInformation-Retrieval: Vektorraum-Modell
Information-Retrieval: Vektorraum-Modell Claes Neuefeind Fabian Steeg 03. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrTextnormalisierung. Uwe Reichel IPS, LMU München 4. Mai 2010
Textrmalisierung Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 4. Mai 2010 Inhalt Satzsegmentierung Wortrmalisierung Tokenisierung Token-Zerlegung Outputformat Inhalt 1 Satzsegmentierung
MehrInformation Retrieval und Question Answering Universität Trier LDV/CL WS 2009/2010 HS Dialogsysteme Kai Kugler
Information Retrieval und Question Answering Universität Trier LDV/CL WS 2009/2010 HS Dialogsysteme Kai Kugler (kugl2203@uni-trier.de) 1 Information Retrieval Information Retrieval (IR) ist das maschinelle,
MehrSeminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens
Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung
MehrSeminar Künstliche Intelligenz Wintersemester 2014/15
Seminar Wintersemester 2014/15 Martin Hacker Richard Schaller Department Informatik FAU Erlangen-Nürnberg 8.10.2014 Vorstellung Über die Dozenten Institution Lehrstuhl für 2 / 7 2 / 7 KISEM WS 2014/15
MehrSkalarprodukt, Norm & Metrik
Skalarprodukt, Norm & Metrik Stefan Ruzika Mathematisches Institut Universität Koblenz-Landau Campus Koblenz 11. Mai 2016 Stefan Ruzika 5: Skalarprodukt, Norm & Metrik 11. Mai 2016 1 / 13 Gliederung 1
MehrSprachtechnologie. Fraunhofer-Institut für Angewandte Informationstechnik FIT. Katja Niemann Maren Scheffel
Sprachtechnologie Fraunhofer-Institut für Angewandte Informationstechnik FIT Katja Niemann Maren Scheffel Inhalt Was ist Sprachtechnologie? Computerlinguistische Anwendungen Praktische Beispiele MACE Schlüsselaktionen
MehrText Mining Gliederung. Text Mining. OS Datamining SS 10. Thomas Boy. 25. Mai 2010 1 / 37
Gliederung Text Mining OS Datamining SS 10 Thomas Boy 25. Mai 2010 1 / 37 Gliederung 1 Gliederung 2 Einleitung Motivation Konkretisierung 3 Allgemeines Definiton Text Mining Ablaufschema 4 Anwendungen
MehrMultilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval
Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval
MehrVergleiche und Transformationen für XML-Dokumente - Teil 2. Ein Ansatz zur hierarchischen, adaptiven Kollationierung
Vergleiche und Transformationen für XML-Dokumente - Teil 2 Ein Ansatz zur hierarchischen, adaptiven Kollationierung Varianz in der Gleichheit nicht nur der Manuskripte, sondern auch ihrer Teile die Elemente
Mehr1. Vorlesung,
1. Vorlesung, 16.10.2006 Einführung und Motivation, Beispiel Information versus Daten Grundlegende Konzepte Aufgaben des Anwenders Logische Sicht auf Dokumente Dokumentvorverarbeitung Dokumentsuche mit
MehrKünstliche Intelligenz Text Mining
Künstliche Intelligenz Text Mining Stephan Schwiebert Sommersemester 2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Data Mining Sammelbegriff für die Extraktion von
Mehr12. Vorlesung. Statistische Sprachmodelle für Information Retrieval
12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von
MehrAgenda. Seminar: Informationsstrukturierung. SS 2007 Ulli Waltinger. Lexical Chaining Textkategorisierung und Lexical Chaining
Seminar: Informationsstrukturierung SS 2007 Ulli Waltinger Lexical Chaining Textkategorisierung und Lexical Chaining 1 Agenda Textkategorisierung Datenanalyse und Lemmatisierung Lexical Chaining Quelle:
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
MehrSuchmaschinenalgorithmen. Vortrag von: Thomas Müller
Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:
MehrInformation Retrieval. Peter Kolb
Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation
MehrBücher und Artikel zum Thema
Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,
MehrMaterialsammlung zur Implementierung von Information Retrieval Systemen
Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,
MehrFortgeschrittene Computerintensive Methoden: Text Mining Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid
Fortgeschrittene Computerintensive Methoden: Text Mining Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Text Mining
MehrKapitel 23 Strukturinformationen in Dokumenten. HHU Düsseldorf, WS 2008/09 Information Retrieval 368
Kapitel 23 Strukturinformationen in Dokumenten HHU Düsseldorf, WS 2008/09 Information Retrieval 368 Erkennung von Strukturinformationen in Web- Dokumenten Aufgaben: Kreation von Metadaten optimal: Eintragen
MehrEinleitung Grundlagen Einordnung. Normen. Thomas Gerstner. Institut für Mathematik Goethe-Universität Frankfurt am Main
Institut für Mathematik Goethe-Universität Frankfurt am Main Einführungsvortrag Proseminar 25. Januar 2013 Outline 1 Einleitung Motivation Anwendungsbereiche 2 3 Wichtige Outline Einleitung Motivation
MehrKlassisches Information Retrieval Jan Schrader
Klassisches Information Retrieval 27.10.2011 Jan Schrader Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies
MehrProbabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist
Rückblick Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal
MehrImplementation und Evaluation des Vektormodells anhand von TREC-Daten
Implementation und Evaluation des Vektormodells anhand von TREC-Daten Seminarprojekt Information Retrieval WS 2015/2016 Bastian Beyer, Alexander Birkenkamp Institut für Computerlinguistik Universität Heidelberg
MehrStemming. Referenten: Johannes Lang Rossen Kowatschew
Universität Heidelberg Institut für Computerlinguistik HS Information Retrieval WS 01/02 Leitung: Dr. Karin Haenelt 04.02. 2002 Stemming. Referenten: Johannes Lang Rossen Kowatschew Gliederung Einführung:
MehrAutomatische Verknüpfung Historischer und Zeitgenössischer Wörterbücher und Enzyklopädien
Universität des Saarlandes Naturwissenschaftlich-Technische Fak. I Fachrichtung 6.2 - Informatik Max-Planck-Institut für Informatik AG 5 - Datenbanken und Informationssysteme Prof. Dr. Ing. Gerhard Weikum
Mehr1. Aufgaben eines Tokenizers
Lerneinheit Tokenisierung ist eine absolut notwendige Vorstufe für jede weitere computerlinguistische Verarbeitung eines Textes (u.a.: für die syntaktische Analyse). 1. Aufgaben eines Tokenizers Aufgaben
MehrWorthäufigkeiten - Worthäufigkeiten analysieren
Worthäufigkeiten - Worthäufigkeiten analysieren Inhaltsverzeichnis WORTHÄUFIGKEITEN - WORTHÄUFIGKEITEN ANALYSIEREN... 1 Worthäufigkeiten - Worthäufigkeiten analysieren Die einfachste Funktion von MAXDictio
MehrText Mining. Peter Kolb 25.6.2012
Text Mining Peter Kolb 25.6.2012 Übersicht Big Data Information Retrieval vs. Text Mining Anwendungen Dokumentenähnlichkeit Termähnlichkeit Merkmalsauswahl und -Gewichtung Kategorisierung Clustering Big
MehrCorpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt
Corpus based Identification of Text Segments Thomas Ebert Betreuer: MSc. Martin Schmitt Übersicht 1. Motivation 2. Ziel der Arbeit 3. Vorgehen 4. Probleme 5. Evaluierung 6. Erkenntnisse und offene Fragen
MehrImplementierung: Dokumentclustering
Implementierung: Dokumentclustering Max Jakob Florian Winkelmeier Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik HS Information Retrieval Dozentin: Dr. Karin Haenelt Wintersemester
MehrInformation Retrieval
Information Retrieval Information Retrieval Uni-Köln Institut für Sprachliche Informationsverarbeitung Computerlinguistik I J. Hermes 13.10.2009 16-17.30h Referenten Adalbert Wrona Klaus Jettkant Klassisches
Mehr