2. Natürliche Sprache
|
|
|
- Karl Schneider
- vor 9 Jahren
- Abrufe
Transkript
1 2. Natürliche Sprache
2 Rückblick Information Retrieval an der Schnittstelle zwischen Bibliotheks- und Kommunikationswissenschaft, Computerlinguistik und Informatik Informationsbedürfnis des Benutzers als Ausgangspunkt Inhalte meist natürlichsprachlich und unstrukturiert Invertierter Index als Indexstruktur Precision und Recall als Gütemaße 2
3 Motivation Herausforderungen bei Umgang mit natürlicher Sprache wie teilt man einen Text in zu indexierende Dokumente auf? wie teilt man ein Dokument in zu indexierende Wörter auf? Welche Wörter sollen in welcher Form indexiert werden? Mehrwortgruppen und Komposita (z.b. information retrieval, bundeskanzleramt) Unterschiedliche Formen des gleichen Worts (z.b. house/houses, laufen/laufe/lief) Synonyme und Polyseme (z.b. bank, present, automobile/car) 3
4 Inhalt 2.1 Aufteilung in Dokumente und Wörter 2.2 Normalisierung 2.3 Gesetz von Zipf und Stoppwörter 2.4 Reduktion auf Grund- oder Stammformen 2.5 Synonyme und Polyseme 2.6 Rechtschreibung 4
5 2.1 Aufteilung und Dokumente und Wörter Granularität von Dokumenten hängt von der Anwendung ab und muss vor Indexierung festgelegt werden z.b. als Webseite Office-Datei mit ihren Anhängen Veröffentlichung (z.b. Buch oder Artikel) Kapitel eines Buches Abschnitt / Passage eines Artikels Satz 5
6 Aufteilung von Dokumenten Prinzipielles Vorgehen um vom Inhalt der Dokumente zu einem suchbaren Index zu gelangen Zeichen O N e i l _ m a d e _ t h e _ b o o k s _ c o v e r Tokenisierung Tokens O Neil made the book s cover Sprachabhängige Transformationen Terme oneil made book cover Indexierung Terme werden in einem invertierten Index indexiert und dadurch suchbar gemacht 6
7 Tokenisierung Tokenisierung (tokenization) durch Aufteilen an Leerzeichen (white spaces) und Entfernen von Satzzeichen (z.b.?,!,.) als Ausgangspunkt für Sprachen wie Englisch und Deutsch Sprach- und anwendungsabhängige Feinheiten z.b. Apostroph (z.b. l âme, coup d état, peter s, Johnsons ) Bindestriche (z.b. vingt-et-un, bread-and-butter) 7
8 2.2 Normalisierung Groß- und Kleinschreibung wird meist verworfen und alle Tokens in Kleinbuchstaben konvertiert (case folding) Beibehalten von Groß- und Kleinschreiben sinnvoll für Akronyme (z.b. CAT, SIAM, MIT) Familiennamen (z.b. Bush, Black, Green) Markennamen (z.b. General Motors, Apple) Definition solcher Ausnahmen z.b. mittels Wortlisten Benutzer formulieren Anfragen meist in Kleinbuchstaben 8
9 Normalisierung Akzente und Umlaute auf kanonische Form abgebildet école ecole, résumé resume saarbrücken saarbruecken, dächer daecher Bindestriche (hypen) werden für bestimmte Präfixe entfernt anti-discriminatory antidiscriminatory Akronyme werden auf kanonische Form abgebildet C.I.A. CIA, U.S.A. USA 9
10 2.3 Gesetz von Zipf und Stoppwörter George K. Zipf ( ) beobachtete, dass für natürlichsprachliche Text gilt, dass die Häufigkeit eines Wortes f(w) umgekehrt proportional zu seinem Häufigkeitsrang r(w) ist, d.h.: f(w) Ã 1 r(w) mit 1 Quelle: Das häufigste Wort kommt somit doppelt so oft vor wie das zweithäufigste Wort zehnmal so oft vor wie das Wort auf Rang 10 hundertmal so oft vor wie das Wort auf Rang
11 Gesetz von Zipf Beispiel: Worthäufigkeit und Häufigkeitsrang in The New York Times zwischen 1987 und 2007 log(häufigkeit) log(häufigkeitsrang) 11
12 Gesetz von Zipf Anteil von c der Wortvorkommen entfällt auf das häufigste Wort (für Englisch gilt c 0.1) 10% der Wortvorkommen entfallen auf häufigstes Wort, 5% auf das zweithäufigste, 2.5% auf vierthäufigstes, etc. Verteilung der Worthäufigkeiten ist schief (skewed) und folgt einem sogenannten Potenzgesetz (power law) 12
13 Stoppwörter Stoppwörter sind Wörter die wenig Information enthalten, da sie in sehr vielen Dokumenten vorkommen und damit von geringem Nutzen für Beantwortung von Anfragen sind Eliminierung von Stoppwörtern führt zu Reduzierung zur Indexierung benötigten Speicherplatzes Verbesserung der Antwortzeiten Verbesserung der Ergebnisgüte (z.b. a movie that bill murray has directed) Verschlechterung der Ergebnisgüte (z.b. the who, let it be) 13
14 Stoppwörter Stoppwortliste wird meist manuell definiert, evtl. basierend auf vorheriger Analyse der Termhäufigkeiten a an and are as at be by for has has he in is it its of on that the to was were will with Alternativ kann Stoppwortliste automatisch bestimmt werden z.b. als alle Wörter, die in mehr als k% der Dokumente vorkommen in weniger als m% der Dokumente vorkommen Eliminierung von Stoppwörtern heute unüblich 14
15 2.4 Reduktion auf Grund- oder Stammformen Wörter in verschiedenen Beugungen (Flexionsformen) Konjugation bei Verben (z.b. gehen ging gegangen, go went gone) Deklination bei Substantiven (z.b. Boot Bootes Boote, boat boats, billig billige billiges billigen billigem) Komparation bei Adjektiven (z.b. cheap cheaper cheapest) Wörter mit gleichem Wortstamm (z.b. Fahrt Fahrer fahren, house housing, arbeit arbeiter arbeiten, work working) 15
16 Grundformreduktion Grundformreduktion (Lemmatisierung, lemmatization) erfolgt immer auf ein existierendes Wort Nominativ Singular bei Substantiven und Adjektiven (z.b. boot bootes boote boot) Infinitiv bei Verben (z.b. go went gone go) Bestimmung der korrekten Grundform eines Tokens ist oft schwierig und bedarf zusätzlicher Information z.b. Kontext Wortart (part of speech) Wörterbuch (z.b. um mice auf mouse abzubilden) 16
17 Stammformreduktion Stammformreduktion (stemming) erfolgt auf den Wortstamm, der kein existierendes Wort sein muss boat boat, boats boat go go, went went, gone gone vegetation veget, vegetables veget Regelbasierte Ansätze zur sukzessiven Suffixentfernung für schwach flektierte Sprachen wie Englisch Lovins (1968) : Regeln Porter (1980) : Regeln Krovetz (1983) : Regeln und Wörterbuch 17
18 Porters Algorithmus zur Stammformreduktion Suffixentfernung in fünf Schritten (suffix stripping) Schritt 1a: Wende Regel für längstmögliches Suffix an sses ss z.b. caresses caress ies i z.b. ponies poni ss ss z.b. caress caress Schritt 2: Falls Token aus zwei oder mehr Silben besteht ational ate z.b. relational relate tional tion z.b. conditional condition Algorithmus wird auf jedes Token separat angewendet 18
19 Porters Algorithmus zur Stammformreduktion Code & Demo zu Porters Stammformreduktion: liseberg is an amusement park located in gothenburg, sweden, that opened in It is one of the most visited amusement parks in Scandinavia, attracting about three million visitors annually. among the noteworthy attractions is the wooden roller coaster balder... Quelle: liseberg is an amus park locat in gothenburg, sweden, that open in it is one of the most visit amus park in scandinavia, attract about three million visitor annual. among the noteworthi attract is the wooden roller coaster balder... 19
20 Grundform- und Stammformreduktion Grundform- und Stammformreduktion kann erreichen toleranteres Matchingvon Dokumenten im Boole schen Retrieval, das nicht mehr von spezifischer Wortform abhängt keine exakte Suche nach spezifischer Wortform mehr möglich kleineres Wörterbuch da weniger Terme zu indexieren sind Verbesserung von Recall (z.b. working conditions chinese factories) Verschlechterung von Precision (z.b. marine vegeation vs. marinated vegetables) Nutzen tendenziell höher für stark flektierte Sprachen 20
21 2.5 Synonyme und Polyseme Synonyme (z.b. car/automobile, buy/purchase) sind Wörter mit gleicher oder sehr ähnlicher Bedeutung wirken sich negativ auf Recall aus Polyseme (z.b. bank, present, bed, green, party) sind Wörter mit mehreren Bedeutungen wirken sich negativ auf Precision aus 21
22 Thesaurus Thesaurus (wörtlich: Wortschatz) ist eine Sammlung von Begriffen, die zueinander in Beziehung stehen, z.b. Synonyme (gleiche Bedeutung) (z.b. car automobile, holidays vacation) Antonyme (gegensätzliche Bedeutung) (z.b. lucky unlucky, expensive cheap) Hypernyme (Überbegriffe) (z.b. mammal rodent, machine computer) Hyponyme (Unterbegriffe) (z.b. rat rodent, rodent mammal) Meronyme (Teil-von-Beziehung) (z.b. tree forest, board computer) 22
23 WordNet WordNet ist eine lexikalische Datenbank in Englisch 23
24 GermaNet GermaNet ist eine lexikalische Datenbank für Deutsch 24
25 2.6 Rechtschreibung Rechtschreibefehler sowie unterschiedliche Schreibweisen in Dokumenten und Anfragen wirken sich negativ auf Ergebnisgüte aus britnie spears, britany speers, britnee speers aple ipod, apple ifone, apple iped neighbor, neighbour prolog, prologue Enthält eine Anfrage ein unbekanntes Wort (z.b. ifone), so kann man versuchen, es durch ein ähnliches bekanntes Wort (z.b. iphone) zu ersetzen 25
26 Editierdistanz nach Levenshtein Editierdistanz zwischen zwei Zeichenketten s und t misst die minimal benötigte Anzahl folgender Operationen zur Umwandlung von s in t Einfügen eines Zeichens (insert) Löschen eines Zeichens (delete) Ersetzen eines Zeichens (replace) Beispiel: Distanz zwischen ifone und iphone beträgt 2 ersetze f durch p (d.h. ifone ipone) füge h ein (d.h. ipone iphone) 26
27 Editierdistanz nach Levenshtein Editierdistanz lässt sich mit dynamischer Programmierung in Zeit- und Platzkomplexität O( s t ) berechnen Idee: Editierdistanz d(i, j) der beiden Präfixe s[1... i ] und t[1... j ] lässt sich ermitteln als Minimum von d(i-1, j-1) + (s[i] == t[j]? 0 : 1) (ersetze letztes Zeichen) d(i, j-1) + 1 (füge letztes Zeichen) d(i-1, j) + 1 (lösche letztes Zeichen) Berechnen der Editierdistanz für Präfixe aufsteigender Länge mit Speicherung (Memoisation) in einer Tabelle 27
28 Editierdistanz nach Levenshtein Beispiel: Editierdistanz zwischen s = phisch und t = fish Editierdistanz zwischen s[1..3] = phi und t[1..2] = fi p h i s c h f i s h
29 Editierdistanz nach Levenshtein Beispiel: Editierdistanz zwischen s = phisch und t = fish f i s h p h i s c h Ersetze p durch f Füge h ein Ersetze i nicht Ersetze s nicht Füge c ein Ersetze h nicht Backtracking erlaubt Bestimmen einer optimalen Folge von Editieroperationen 29
30 Soundex Abbildung ähnlich klingender Wörter auf kanonische Form durch die schrittweise Anwendung folgender Regeln Behalte ersten Buchstaben bei Ersetze A, E, I, O, U, H, W und Y durch die Zahl 0 Ersetze B, F, P und V durch die Zahl 1 Ersetze C, G, J, K, Q, S, X und Z durch die Zahl 2 Ersetze D und T durch die Zahl 3 Ersetze L durch die Zahl 4 Ersetze M und N durch die Zahl 5 Ersetze R durch die Zahl 6 Verschmelze Folgen der gleichen Zahl (z.b ) Entferne die Zahl 0 und füge 000 am Ende an Kanonische Form sind die ersten vier Zeichen 30
31 Soundex Beispiel: lightening L0g0t0n0ng L020t0n0n2 L02030n0n2 L L L235 Beispiel: lightning L0g0tn0ng L020tn0n2 L0203n0n2 L L L235 31
32 Zusammenfassung Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können eliminiert werden Stamm- und Grundformreduktion führt Beugungen des gleichen Wortes auf kanonische Form zurück Editierdistanz nach Levenshtein misst Ähnlichkeit als Anzahl benötigter Editieroperationen Soundex vereinheitlicht Wörter mit ähnlicher Aussprache 32
33 Literatur [1] C. D. Manning, P. Raghavan, H. Schütze: Introduction to Information Retrieval, Cambridge University Press, 2008 (Kapitel 2 & 3) 33
Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene
Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
Information-Retrieval: Unscharfe Suche
Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig
Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus
Lemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer [email protected] Trefferquote (Recall) und Genauigkeit (Precision)
Lemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer [email protected] Trefferquote (Recall) und Genauigkeit (Precision)
5. Information Retrieval
5. Information Retrieval Inhalt 5.1 Information Retrieval 5.2 Vorverarbeitung der Dokumente 5.3 Boolesches Retrieval 5.4 Vektorraum-Modell 5.5 Evaluation 5.6 Implementierung 5.7 Websuche 2 5.1 Information
Inverted Files for Text Search Engines
Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung
Einführung Konzepte und Begriffe Ähnliche Projekte Arbeiten mit WordNet
Randy Witte http://wordnet.princeton.edu/ http://www.linguistik.uni-erlangen.de SemNet.pdf http://en.wikipedia.org/wiki/wordnet http://www.globalwordnet.org/ Einführung Konzepte und Begriffe Ähnliche Projekte
Natürlichsprachliche Systeme I Materialien zur Vorlesung
Natürlichsprachliche Systeme I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg WS 2010/11, 19. Oktober 2010,
I am. ich bin. you are. du bist. he is she is it is. er ist sie ist es ist. we are. wir sind. you are. ihr seid. they are.
Regel 1: Alle Formen von be a) Das Verb be heißt sein. Hier sind alle Formen: English: German: I am you are he is she is it is we are you are they are ich bin du bist er ist sie ist es ist wir sind ihr
I am. ich bin. you are. du bist. he is she is it is. er ist sie ist es ist. we are. wir sind. you are. ihr seid. they are.
Regel 1: Alle Formen von be a) Das Verb be heißt sein. Hier sind alle Formen: English: German: I am you are he is she is it is we are you are they are ich bin du bist er ist sie ist es ist wir sind ihr
Tokenisierung und Lemmatisierung in Suchmaschinen
Tokenisierung und Lemmatisierung in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2010 Stefan Langer [email protected] Übung: Tokenisierung (5 min) Was ist
Information Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
1. Warum ist es nicht zweckmäßig, die Automatische Schlagwortvergabe für alle Kategorien eines Datensatzes durchzuführen?
Winfried Gödert / Klaus Lepsky Laborpraktikum Automatisches Indexieren Wiederholungsfragen Die Wiederholungsfragen dienen der Vertiefung der im Laborpraktikum behandelten Materie. Sie ergänzen die Übungsaufgaben,
SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008
SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische
WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
2. Textvorverarbeitung. nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments
Textvorverarbeitung 2. Textvorverarbeitung nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments auszudrücken deswegen lohnt es sich oft, eine Vorverarbeitung durchzuführen
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale
Information Retrieval. Peter Kolb
Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation
Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl
Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung
❶ Hier siehst du Beispiele für die Pluralbildung im Englischen. Schreibe unter jedes Beispiel zwei weitere Nomen, die ihren Plural genauso bilden.
4 Singular und Plural ❶ Hier siehst du Beispiele für die Pluralbildung im Englischen. Schreibe unter jedes Beispiel zwei weitere Nomen, die ihren Plural genauso bilden. Tipp: Wenn dir keine Nomen einfallen,
Dynamische Programmierung
Dynamische Programmierung Claudia Gerhold 9.5.6 Claudia Gerhold Dynamische Programmierung 9.5.6 / 4 Agenda Einführung Dynamische Programmierung Top-Down Ansatz mit Memoization Bottom-Up Ansatz 3 Anwendungsbeispiele
Kapitel 8. Indexstrukturen für XML-Dokumente. Werteindexe Volltextindexe Pfadindexe
Kapitel 8 Indexstrukturen für XML-Dokumente Werteindexe Volltextindexe Pfadindexe Indexstrukturen Ermöglichen effizienten Datenzugriff für bestimmte Arten von Anfragen verschiedene Arten von Indexen sind
WordNet Eine elektronische lexikalische Datenbank
WordNet Eine elektronische lexikalische Datenbank Michael Zilske WordNet enthält 95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) in 70100 Bedeutungen mit kurzen Umschreibungen, manchmal
a lot of, much und many
Aufgabe 1, und In bejahten Sätzen verwendest du für die deutschen Wörter viel und viele im Englischen Bsp.: I have got CDs. We have got milk. There are cars on the street. Bei verneinten Sätzen und Fragen
English grammar BLOCK F:
Grammatik der englischen Sprache UNIT 24 2. Klasse Seite 1 von 13 English grammar BLOCK F: UNIT 21 Say it more politely Kennzeichen der Modalverben May and can Adverbs of manner Irregular adverbs Synonyms
NLP im Information Retrieval
NLP im Information Retrieval Tokenisierung Stoppwortlisten Stemming, Morphologische Analyse, Kompositazerlegung Flaches Parsing: Phrasen, Mehrwortlexeme N-Gramme Lesartendisambiguierung Thesauri, Semantische
The English Tenses Die englischen Zeitformen
The English Tenses Die englischen Zeitformen Simple Present (Präsens einfache Gegenwart) Handlungen in der Gegenwart die sich regelmäßig wiederholen oder einmalig geschehen I go you go he goes she goes
Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250
Kapitel 16 Begriffe HHU Düsseldorf, WS 2008/09 Information Retrieval 250 Semantisches Umfeld "Find what I mean, not what I say" (Susan Feldman) natürlichsprachiges Umfeld Werkzeug: natürlichsprachiger
Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami
Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu
Information Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
Regel 1: Wie kann ich einen Besitz ausdrücken?
Regel 1: Wie kann ich einen Besitz ausdrücken? - mein Auto, dein Haus, unser Klassenraum besitzanzeigender Begleiter (= Possessive Pronoun) - Lisas Familie, Thomas Freund, Bernds Zimmer Wessen-Fall (Genitiv-S)
Grundbegriffe des Information Retrieval
Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung
1. Vorlesung,
1. Vorlesung, 16.10.2006 Einführung und Motivation, Beispiel Information versus Daten Grundlegende Konzepte Aufgaben des Anwenders Logische Sicht auf Dokumente Dokumentvorverarbeitung Dokumentsuche mit
Name: Abgabe: Montag, Blatt 10
Name: Abgabe: Montag, 26.1.2004 http://www-i1.informatik.rwth-aachen.de/infoki/engl5k/index.htm Blatt 10 Aufgabe 1 Übersetzen Übersetze die Geschichte über den kleinen Frosch aus dem Park. Sarah und Robert
Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010
Finite-State-Morphologie in XLE Grammatikentwicklung, SS 2010 1 / 20 Worum es heute geht: Nutzen von Finite-State-Morphologien... und wie man sie in XLE einbaut 2 / 20 Lexikon in XLE Bis jetzt: so genanntes
HS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln. Edit distance. Referentinnen: Alena Geduldig, Kim Opgenoorth
HS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln Edit distance Referentinnen: Alena Geduldig, Kim Opgenoorth inexact matching Problem Erkenne, finde und toleriere
NLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
Unit 2. Simple Past (kurz) Past Progressive - lang andauernd
Unit 2 1) The Past Progressive (Verlaufsform in der Vergangenheit) Wie für die Gegenwart (Present Progressive), gibt es auch für die Vergangenheit eine Verlaufsform für länger andauernde Handlungen: Verwendung:
Colors and Shapes at the Park Part 1
Hallo. Mein Name is Jojo _ Hello. My name is Jojo Hallo Lulu! _ Hello Lulu! Hallo Jojo! _ Hello Jojo! Lass uns zum Park gehen! _ Let's go to the park! Der Park _ The park Lasst uns zum Park gehen! _ Let's
Studienprojekt TaxoSearch Spezifikation
Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna
Prepositions are words that give information to the reader. Vorwörter geben dem Leser Informationen.
What is the role of prepositions? Prepositions are words that give information to the reader. They can tell us where something takes place when something takes place why something takes place or give a
Datenvorverarbeitung von nominalen Daten für Data Mining
Datenvorverarbeitung von nominalen Daten für Data Mining Entstanden 2004/2005 bei der T-Systems International GmbH unter Betreuung von Prof. Dr. J. Fürnkranz Seite 1 Gliederung Datenvorverarbeitung Prepared
Relationales Datenbanksystem Oracle
Relationales Datenbanksystem Oracle 1 Relationales Modell Im relationalen Modell wird ein relationales Datenbankschema wie folgt beschrieben: RS = R 1 X 1 SC 1... R n X n SC n SC a a : i=1...n X i B Information
BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany
BIW Wahlpflichtmodul Einführung in Solr, Pipeline und REST Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2018-05-29 Überblick über gängige Lösungen 2 3 in a nutshell
19. Dynamic Programming I
495 19. Dynamic Programming I Fibonacci, Längste aufsteigende Teilfolge, längste gemeinsame Teilfolge, Editierdistanz, Matrixkettenmultiplikation, Matrixmultiplikation nach Strassen [Ottman/Widmayer, Kap.
Suchen in Texten. Naives Suchen Verfahren von Knuth-Morris-Pratt Verfahren von Boyer-Moore Ähnlichkeitssuchen Editierdistanz
Suchen in Texten Naives Suchen Verfahren von Knuth-Morris-Pratt Verfahren von Boyer-Moore Ähnlichkeitssuchen Editierdistanz Textsuche Gegeben ist ein Zeichensatz (Alphabet) Σ. Für einen Text T Σ n und
i Korrekturlauf mit Acrobat Reader - Correction workflow using Acrobat Reader i.1 Vorbereitung / Preparations
IPPS UND RICKS KORREKURLAUF MI ACROBA READER - CORRECION WORKFLOW USING ACROBA READER i Korrekturlauf mit Acrobat Reader - Correction workflow using Acrobat Reader i.1 Vorbereitung / Preparations VOREINSELLUNGEN
Übungsaufgaben zur Herstellung von Registern
Übungsaufgaben zur Herstellung von Registern Für die folgenden Übungen benötigen Sie ein Textverarbeitungsprogramm, das über eine Funktion zur automatischen Registererstellung verfügt (beispielsweise Microsoft
Inhalt. Topics and Worksheets Vorwort Hinweise zum ActiveBook
Inhalt Vorwort Hinweise zum ActiveBook Topics and Worksheets... 1 Topic 1: Reading: Chasing the cheese... 2 Grammar: Simple past and present perfect revision... 4 Vocabulary: Naming parts of a picture...
Information Retrieval and Semantic Technologies
Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen
WordNet. Referat von Johannes Braunias im Proseminar Word Sense Disambiguation bei Stefan Thater im Wintersemester
WordNet Referat von Johannes Braunias im Proseminar Word Sense Disambiguation bei Stefan Thater im Wintersemester 2010 15. November 2010 Synonymie Eine bestimmte Wortform in einem Satz, die durch eine
Kopiervorlagen. Rechtschreibung und Wortkunde. Schülerduden. Arbeitsblätter zur Benutzung eines Wörterbuchs zum Üben und Wiederholen 5. bis 10.
Kopiervorlagen Schülerduden Rechtschreibung und Wortkunde Arbeitsblätter zur Benutzung eines Wörterbuchs zum Üben und Wiederholen 5. bis 10. Klasse Für den Deutschunterricht an Gymnasium, Realschule und
Textdokument-Suche auf dem Rechner Implementierungsprojekt
Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick
Kapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
Materialien zu unseren Lehrwerken
Word order Word order is important in English. The word order for subjects, verbs and objects is normally fixed. The word order for adverbial and prepositional phrases is more flexible, but their position
Einführung in die Computerlinguistik. Morphologie II
Einführung in die Computerlinguistik Morphologie II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 30.11.2015 Schütze & Zangenfeind: Morphologie II 1
KAPITEL I EINLEITUNG
KAPITEL I EINLEITUNG A. Der Hintergrund Die Wortklasse oder part of speech hat verschiedene Merkmale. Nach dem traditionellen System werden die deutschen Wortklassen in zehn Klassen unterteilt (Gross,
Kapitel IR:IV. IV. Indexkonstruktion. Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung
Kapitel IR:IV IV. Indexkonstruktion Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung IR:IV-1 Index Construction STEIN 2005-2010 Bemerkungen: Die im folgenden vorgstellten Techniken und
Evaluation von IR-Systemen
Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen
Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik
Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik Die wichtigen Regeln im Unterricht orellfüssli Verlag AG / Vorwort 9 TeilA Regelorientierter Rechtschreibunterricht 11 1 Nachsprech-,
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015
WAS IST DER KOMPARATIV: = The comparative
DER KOMPATATIV VON ADJEKTIVEN UND ADVERBEN WAS IST DER KOMPARATIV: = The comparative Der Komparativ vergleicht zwei Sachen (durch ein Adjektiv oder ein Adverb) The comparative is exactly what it sounds
Kapitel 18 Fehlertolerantes Retrieval
Kapitel 18 Fehlertolerantes Retrieval HHU Düsseldorf, WS 2008/09 Information Retrieval 272 Eingabefehler in den Dokumenten in den Suchanfragen Formen Leerzeichenfehler ("...ofthe..."; "th_ebook") Fehler
Topic 2: Reading: T-shirts and jeans Grammar: Past tenses Vocabulary: Plural nouns Using your English: Mediation Test...
Inhalt Vorwort Hinweise zum ActiveBook Topics and Worksheets... 1 Topic 1: Reading: What shall we watch?... 2 Grammar: Present tenses... 6 Vocabulary: Prepositions... 8 Using your English: Situation practise...
Lexikalisch-semantische Disambiguierung mit WordNet
Lexikalische Semantik Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens Paper: Rada Mihalcea & Dan I. Moldovan: A Method for Word Sense Disambiguation of Unrestricted Text Lexikalisch-semantische
have got: to be: L I S T E N M A K E S A Y G O O N W R I T E L O O K A T B E S U R E B R I N G H E R E F I N D Schulhof, Spielplatz
Aufgabe 1 - Verbenrätsel - L I S T E N M A K E S A Y G O O N W R I T E L O O K A T B E S U R E B R I N G H E R E F I N D Schulhof, Spielplatz Aufgabe 2 - "to be" or "have got"? - Finde heraus, wo du im
Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren
Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie
Vom Suchen und Finden - Google und andere Ansätze
Vom Suchen und Finden - Google und andere Ansätze Norbert Fuhr Universität Duisburg Essen FB Ingenieurwissenschaften Abteilung Informatik 12. Mai 2005 Gliederung 1 Einführung 2 Grundlagen 3 Erweiterte
Einführung in PERL 2 Reguläre Ausdrücke
Einführung in PERL 2 Reguläre Ausdrücke BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER und dem Buch `Einführung in Perl (Lama Buch) von RL Schwartz&T Phoenix sowie hwp://de.sel[tml.org/perl/sprache/regexpr.htm
Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber
Simullda Structured Interlingua MultiLingual Lexical Database Application Sonja Weber 1 Gliederung Background Begriffsklärung Multilinguale Datenbanken WordNet Maschinelle Übersetzung Formale Begriffsanalyse
Sprachstatistik: Das Zipf sche Gesetz
Sprachstatistik: Das Zipf sche Gesetz Korpus-Workshop Thema Korpus-Statistik Thomas Wittig Universität Leipzig Institut für Informatik [email protected] Principle of Least Effort 2 George K. Zipf:
Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik
Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik Die wichtigen Regeln im Unterricht orell füssli Verlag AG / PH P H Vorwort 9 TeilA Regelorientierter Rechtschreibunterricht 11 1 Nachsprech-,
Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren
Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie
Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval
Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval
Informatik II: Algorithmen & Datenstrukturen. Blättern Sie nicht um bevor Sie dazu aufgefordert werden!
Albert-Ludwigs-Universität Institut für Informatik Prof. Dr. F. Kuhn Informatik II: Algorithmen & Datenstrukturen Montag, 29. August, 2014, 14:00 17:00 Name:...........................................................
Lexikalische Semantik. Was ist ein Wort? Was ist in einem Wort?
Lexikalische Semantik Was ist ein Wort? Was ist in einem Wort? Was ist ein Wort? Er machte nicht viele Wörter. Deine Wörter in Gottes Ohr! Ich stehe zu meinen Wörtern Ein Essay von 4000 Worten Im Deutschen
Lektion 3: Nominativ und Akkusativ (nominative and accusative cases)
Lektion 3: Nominativ und Akkusativ (nominative and accusative cases) Das Verb bestimmt, in welchem Fall das Substantiv steht. Manche Verben wollen nur den Nominativ, andere wollen zusätzlich den Akkusativ
k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering
Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar
5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS)
5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) Sommersemester 2009 Dr. Carsten Sinz, Universität Karlsruhe Datenstruktur BDD 2 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer:
Inhaltsverzeichnis WORTKOMBINATIONEN... 1
Wortkombinationen Inhaltsverzeichnis WORTKOMBINATIONEN... 1 Wortkombinationen Was leistet die Funktion Wortkombinationen? Die Funktion Wortkombinationen liefert eine Übersicht, welche Kombinationen von
