2. Natürliche Sprache

Größe: px
Ab Seite anzeigen:

Download "2. Natürliche Sprache"

Transkript

1 2. Natürliche Sprache

2 Rückblick Information Retrieval an der Schnittstelle zwischen Bibliotheks- und Kommunikationswissenschaft, Computerlinguistik und Informatik Informationsbedürfnis des Benutzers als Ausgangspunkt Inhalte meist natürlichsprachlich und unstrukturiert Invertierter Index als Indexstruktur Precision und Recall als Gütemaße 2

3 Motivation Herausforderungen bei Umgang mit natürlicher Sprache wie teilt man einen Text in zu indexierende Dokumente auf? wie teilt man ein Dokument in zu indexierende Wörter auf? Welche Wörter sollen in welcher Form indexiert werden? Mehrwortgruppen und Komposita (z.b. information retrieval, bundeskanzleramt) Unterschiedliche Formen des gleichen Worts (z.b. house/houses, laufen/laufe/lief) Synonyme und Polyseme (z.b. bank, present, automobile/car) 3

4 Inhalt 2.1 Aufteilung in Dokumente und Wörter 2.2 Normalisierung 2.3 Gesetz von Zipf und Stoppwörter 2.4 Reduktion auf Grund- oder Stammformen 2.5 Synonyme und Polyseme 2.6 Rechtschreibung 4

5 2.1 Aufteilung und Dokumente und Wörter Granularität von Dokumenten hängt von der Anwendung ab und muss vor Indexierung festgelegt werden z.b. als Webseite Office-Datei mit ihren Anhängen Veröffentlichung (z.b. Buch oder Artikel) Kapitel eines Buches Abschnitt / Passage eines Artikels Satz 5

6 Aufteilung von Dokumenten Prinzipielles Vorgehen um vom Inhalt der Dokumente zu einem suchbaren Index zu gelangen Zeichen O N e i l _ m a d e _ t h e _ b o o k s _ c o v e r Tokenisierung Tokens O Neil made the book s cover Sprachabhängige Transformationen Terme oneil made book cover Indexierung Terme werden in einem invertierten Index indexiert und dadurch suchbar gemacht 6

7 Tokenisierung Tokenisierung (tokenization) durch Aufteilen an Leerzeichen (white spaces) und Entfernen von Satzzeichen (z.b.?,!,.) als Ausgangspunkt für Sprachen wie Englisch und Deutsch Sprach- und anwendungsabhängige Feinheiten z.b. Apostroph (z.b. l âme, coup d état, peter s, Johnsons ) Bindestriche (z.b. vingt-et-un, bread-and-butter) 7

8 2.2 Normalisierung Groß- und Kleinschreibung wird meist verworfen und alle Tokens in Kleinbuchstaben konvertiert (case folding) Beibehalten von Groß- und Kleinschreiben sinnvoll für Akronyme (z.b. CAT, SIAM, MIT) Familiennamen (z.b. Bush, Black, Green) Markennamen (z.b. General Motors, Apple) Definition solcher Ausnahmen z.b. mittels Wortlisten Benutzer formulieren Anfragen meist in Kleinbuchstaben 8

9 Normalisierung Akzente und Umlaute auf kanonische Form abgebildet école ecole, résumé resume saarbrücken saarbruecken, dächer daecher Bindestriche (hypen) werden für bestimmte Präfixe entfernt anti-discriminatory antidiscriminatory Akronyme werden auf kanonische Form abgebildet C.I.A. CIA, U.S.A. USA 9

10 2.3 Gesetz von Zipf und Stoppwörter George K. Zipf ( ) beobachtete, dass für natürlichsprachliche Text gilt, dass die Häufigkeit eines Wortes f(w) umgekehrt proportional zu seinem Häufigkeitsrang r(w) ist, d.h.: f(w) Ã 1 r(w) mit 1 Quelle: Das häufigste Wort kommt somit doppelt so oft vor wie das zweithäufigste Wort zehnmal so oft vor wie das Wort auf Rang 10 hundertmal so oft vor wie das Wort auf Rang

11 Gesetz von Zipf Beispiel: Worthäufigkeit und Häufigkeitsrang in The New York Times zwischen 1987 und 2007 log(häufigkeit) log(häufigkeitsrang) 11

12 Gesetz von Zipf Anteil von c der Wortvorkommen entfällt auf das häufigste Wort (für Englisch gilt c 0.1) 10% der Wortvorkommen entfallen auf häufigstes Wort, 5% auf das zweithäufigste, 2.5% auf vierthäufigstes, etc. Verteilung der Worthäufigkeiten ist schief (skewed) und folgt einem sogenannten Potenzgesetz (power law) 12

13 Stoppwörter Stoppwörter sind Wörter die wenig Information enthalten, da sie in sehr vielen Dokumenten vorkommen und damit von geringem Nutzen für Beantwortung von Anfragen sind Eliminierung von Stoppwörtern führt zu Reduzierung zur Indexierung benötigten Speicherplatzes Verbesserung der Antwortzeiten Verbesserung der Ergebnisgüte (z.b. a movie that bill murray has directed) Verschlechterung der Ergebnisgüte (z.b. the who, let it be) 13

14 Stoppwörter Stoppwortliste wird meist manuell definiert, evtl. basierend auf vorheriger Analyse der Termhäufigkeiten a an and are as at be by for has has he in is it its of on that the to was were will with Alternativ kann Stoppwortliste automatisch bestimmt werden z.b. als alle Wörter, die in mehr als k% der Dokumente vorkommen in weniger als m% der Dokumente vorkommen Eliminierung von Stoppwörtern heute unüblich 14

15 2.4 Reduktion auf Grund- oder Stammformen Wörter in verschiedenen Beugungen (Flexionsformen) Konjugation bei Verben (z.b. gehen ging gegangen, go went gone) Deklination bei Substantiven (z.b. Boot Bootes Boote, boat boats, billig billige billiges billigen billigem) Komparation bei Adjektiven (z.b. cheap cheaper cheapest) Wörter mit gleichem Wortstamm (z.b. Fahrt Fahrer fahren, house housing, arbeit arbeiter arbeiten, work working) 15

16 Grundformreduktion Grundformreduktion (Lemmatisierung, lemmatization) erfolgt immer auf ein existierendes Wort Nominativ Singular bei Substantiven und Adjektiven (z.b. boot bootes boote boot) Infinitiv bei Verben (z.b. go went gone go) Bestimmung der korrekten Grundform eines Tokens ist oft schwierig und bedarf zusätzlicher Information z.b. Kontext Wortart (part of speech) Wörterbuch (z.b. um mice auf mouse abzubilden) 16

17 Stammformreduktion Stammformreduktion (stemming) erfolgt auf den Wortstamm, der kein existierendes Wort sein muss boat boat, boats boat go go, went went, gone gone vegetation veget, vegetables veget Regelbasierte Ansätze zur sukzessiven Suffixentfernung für schwach flektierte Sprachen wie Englisch Lovins (1968) : Regeln Porter (1980) : Regeln Krovetz (1983) : Regeln und Wörterbuch 17

18 Porters Algorithmus zur Stammformreduktion Suffixentfernung in fünf Schritten (suffix stripping) Schritt 1a: Wende Regel für längstmögliches Suffix an sses ss z.b. caresses caress ies i z.b. ponies poni ss ss z.b. caress caress Schritt 2: Falls Token aus zwei oder mehr Silben besteht ational ate z.b. relational relate tional tion z.b. conditional condition Algorithmus wird auf jedes Token separat angewendet 18

19 Porters Algorithmus zur Stammformreduktion Code & Demo zu Porters Stammformreduktion: liseberg is an amusement park located in gothenburg, sweden, that opened in It is one of the most visited amusement parks in Scandinavia, attracting about three million visitors annually. among the noteworthy attractions is the wooden roller coaster balder... Quelle: liseberg is an amus park locat in gothenburg, sweden, that open in it is one of the most visit amus park in scandinavia, attract about three million visitor annual. among the noteworthi attract is the wooden roller coaster balder... 19

20 Grundform- und Stammformreduktion Grundform- und Stammformreduktion kann erreichen toleranteres Matchingvon Dokumenten im Boole schen Retrieval, das nicht mehr von spezifischer Wortform abhängt keine exakte Suche nach spezifischer Wortform mehr möglich kleineres Wörterbuch da weniger Terme zu indexieren sind Verbesserung von Recall (z.b. working conditions chinese factories) Verschlechterung von Precision (z.b. marine vegeation vs. marinated vegetables) Nutzen tendenziell höher für stark flektierte Sprachen 20

21 2.5 Synonyme und Polyseme Synonyme (z.b. car/automobile, buy/purchase) sind Wörter mit gleicher oder sehr ähnlicher Bedeutung wirken sich negativ auf Recall aus Polyseme (z.b. bank, present, bed, green, party) sind Wörter mit mehreren Bedeutungen wirken sich negativ auf Precision aus 21

22 Thesaurus Thesaurus (wörtlich: Wortschatz) ist eine Sammlung von Begriffen, die zueinander in Beziehung stehen, z.b. Synonyme (gleiche Bedeutung) (z.b. car automobile, holidays vacation) Antonyme (gegensätzliche Bedeutung) (z.b. lucky unlucky, expensive cheap) Hypernyme (Überbegriffe) (z.b. mammal rodent, machine computer) Hyponyme (Unterbegriffe) (z.b. rat rodent, rodent mammal) Meronyme (Teil-von-Beziehung) (z.b. tree forest, board computer) 22

23 WordNet WordNet ist eine lexikalische Datenbank in Englisch 23

24 GermaNet GermaNet ist eine lexikalische Datenbank für Deutsch 24

25 2.6 Rechtschreibung Rechtschreibefehler sowie unterschiedliche Schreibweisen in Dokumenten und Anfragen wirken sich negativ auf Ergebnisgüte aus britnie spears, britany speers, britnee speers aple ipod, apple ifone, apple iped neighbor, neighbour prolog, prologue Enthält eine Anfrage ein unbekanntes Wort (z.b. ifone), so kann man versuchen, es durch ein ähnliches bekanntes Wort (z.b. iphone) zu ersetzen 25

26 Editierdistanz nach Levenshtein Editierdistanz zwischen zwei Zeichenketten s und t misst die minimal benötigte Anzahl folgender Operationen zur Umwandlung von s in t Einfügen eines Zeichens (insert) Löschen eines Zeichens (delete) Ersetzen eines Zeichens (replace) Beispiel: Distanz zwischen ifone und iphone beträgt 2 ersetze f durch p (d.h. ifone ipone) füge h ein (d.h. ipone iphone) 26

27 Editierdistanz nach Levenshtein Editierdistanz lässt sich mit dynamischer Programmierung in Zeit- und Platzkomplexität O( s t ) berechnen Idee: Editierdistanz d(i, j) der beiden Präfixe s[1... i ] und t[1... j ] lässt sich ermitteln als Minimum von d(i-1, j-1) + (s[i] == t[j]? 0 : 1) (ersetze letztes Zeichen) d(i, j-1) + 1 (füge letztes Zeichen) d(i-1, j) + 1 (lösche letztes Zeichen) Berechnen der Editierdistanz für Präfixe aufsteigender Länge mit Speicherung (Memoisation) in einer Tabelle 27

28 Editierdistanz nach Levenshtein Beispiel: Editierdistanz zwischen s = phisch und t = fish Editierdistanz zwischen s[1..3] = phi und t[1..2] = fi p h i s c h f i s h

29 Editierdistanz nach Levenshtein Beispiel: Editierdistanz zwischen s = phisch und t = fish f i s h p h i s c h Ersetze p durch f Füge h ein Ersetze i nicht Ersetze s nicht Füge c ein Ersetze h nicht Backtracking erlaubt Bestimmen einer optimalen Folge von Editieroperationen 29

30 Soundex Abbildung ähnlich klingender Wörter auf kanonische Form durch die schrittweise Anwendung folgender Regeln Behalte ersten Buchstaben bei Ersetze A, E, I, O, U, H, W und Y durch die Zahl 0 Ersetze B, F, P und V durch die Zahl 1 Ersetze C, G, J, K, Q, S, X und Z durch die Zahl 2 Ersetze D und T durch die Zahl 3 Ersetze L durch die Zahl 4 Ersetze M und N durch die Zahl 5 Ersetze R durch die Zahl 6 Verschmelze Folgen der gleichen Zahl (z.b ) Entferne die Zahl 0 und füge 000 am Ende an Kanonische Form sind die ersten vier Zeichen 30

31 Soundex Beispiel: lightening L0g0t0n0ng L020t0n0n2 L02030n0n2 L L L235 Beispiel: lightning L0g0tn0ng L020tn0n2 L0203n0n2 L L L235 31

32 Zusammenfassung Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können eliminiert werden Stamm- und Grundformreduktion führt Beugungen des gleichen Wortes auf kanonische Form zurück Editierdistanz nach Levenshtein misst Ähnlichkeit als Anzahl benötigter Editieroperationen Soundex vereinheitlicht Wörter mit ähnlicher Aussprache 32

33 Literatur [1] C. D. Manning, P. Raghavan, H. Schütze: Introduction to Information Retrieval, Cambridge University Press, 2008 (Kapitel 2 & 3) 33

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Information-Retrieval: Unscharfe Suche

Information-Retrieval: Unscharfe Suche Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer [email protected] Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer [email protected] Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

5. Information Retrieval

5. Information Retrieval 5. Information Retrieval Inhalt 5.1 Information Retrieval 5.2 Vorverarbeitung der Dokumente 5.3 Boolesches Retrieval 5.4 Vektorraum-Modell 5.5 Evaluation 5.6 Implementierung 5.7 Websuche 2 5.1 Information

Mehr

Inverted Files for Text Search Engines

Inverted Files for Text Search Engines Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung

Mehr

Einführung Konzepte und Begriffe Ähnliche Projekte Arbeiten mit WordNet

Einführung Konzepte und Begriffe Ähnliche Projekte Arbeiten mit WordNet Randy Witte http://wordnet.princeton.edu/ http://www.linguistik.uni-erlangen.de SemNet.pdf http://en.wikipedia.org/wiki/wordnet http://www.globalwordnet.org/ Einführung Konzepte und Begriffe Ähnliche Projekte

Mehr

Natürlichsprachliche Systeme I Materialien zur Vorlesung

Natürlichsprachliche Systeme I Materialien zur Vorlesung Natürlichsprachliche Systeme I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg WS 2010/11, 19. Oktober 2010,

Mehr

I am. ich bin. you are. du bist. he is she is it is. er ist sie ist es ist. we are. wir sind. you are. ihr seid. they are.

I am. ich bin. you are. du bist. he is she is it is. er ist sie ist es ist. we are. wir sind. you are. ihr seid. they are. Regel 1: Alle Formen von be a) Das Verb be heißt sein. Hier sind alle Formen: English: German: I am you are he is she is it is we are you are they are ich bin du bist er ist sie ist es ist wir sind ihr

Mehr

I am. ich bin. you are. du bist. he is she is it is. er ist sie ist es ist. we are. wir sind. you are. ihr seid. they are.

I am. ich bin. you are. du bist. he is she is it is. er ist sie ist es ist. we are. wir sind. you are. ihr seid. they are. Regel 1: Alle Formen von be a) Das Verb be heißt sein. Hier sind alle Formen: English: German: I am you are he is she is it is we are you are they are ich bin du bist er ist sie ist es ist wir sind ihr

Mehr

Tokenisierung und Lemmatisierung in Suchmaschinen

Tokenisierung und Lemmatisierung in Suchmaschinen Tokenisierung und Lemmatisierung in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2010 Stefan Langer [email protected] Übung: Tokenisierung (5 min) Was ist

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

1. Warum ist es nicht zweckmäßig, die Automatische Schlagwortvergabe für alle Kategorien eines Datensatzes durchzuführen?

1. Warum ist es nicht zweckmäßig, die Automatische Schlagwortvergabe für alle Kategorien eines Datensatzes durchzuführen? Winfried Gödert / Klaus Lepsky Laborpraktikum Automatisches Indexieren Wiederholungsfragen Die Wiederholungsfragen dienen der Vertiefung der im Laborpraktikum behandelten Materie. Sie ergänzen die Übungsaufgaben,

Mehr

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008 SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

2. Textvorverarbeitung. nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments

2. Textvorverarbeitung. nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments Textvorverarbeitung 2. Textvorverarbeitung nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments auszudrücken deswegen lohnt es sich oft, eine Vorverarbeitung durchzuführen

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung

Mehr

❶ Hier siehst du Beispiele für die Pluralbildung im Englischen. Schreibe unter jedes Beispiel zwei weitere Nomen, die ihren Plural genauso bilden.

❶ Hier siehst du Beispiele für die Pluralbildung im Englischen. Schreibe unter jedes Beispiel zwei weitere Nomen, die ihren Plural genauso bilden. 4 Singular und Plural ❶ Hier siehst du Beispiele für die Pluralbildung im Englischen. Schreibe unter jedes Beispiel zwei weitere Nomen, die ihren Plural genauso bilden. Tipp: Wenn dir keine Nomen einfallen,

Mehr

Dynamische Programmierung

Dynamische Programmierung Dynamische Programmierung Claudia Gerhold 9.5.6 Claudia Gerhold Dynamische Programmierung 9.5.6 / 4 Agenda Einführung Dynamische Programmierung Top-Down Ansatz mit Memoization Bottom-Up Ansatz 3 Anwendungsbeispiele

Mehr

Kapitel 8. Indexstrukturen für XML-Dokumente. Werteindexe Volltextindexe Pfadindexe

Kapitel 8. Indexstrukturen für XML-Dokumente. Werteindexe Volltextindexe Pfadindexe Kapitel 8 Indexstrukturen für XML-Dokumente Werteindexe Volltextindexe Pfadindexe Indexstrukturen Ermöglichen effizienten Datenzugriff für bestimmte Arten von Anfragen verschiedene Arten von Indexen sind

Mehr

WordNet Eine elektronische lexikalische Datenbank

WordNet Eine elektronische lexikalische Datenbank WordNet Eine elektronische lexikalische Datenbank Michael Zilske WordNet enthält 95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) in 70100 Bedeutungen mit kurzen Umschreibungen, manchmal

Mehr

a lot of, much und many

a lot of, much und many Aufgabe 1, und In bejahten Sätzen verwendest du für die deutschen Wörter viel und viele im Englischen Bsp.: I have got CDs. We have got milk. There are cars on the street. Bei verneinten Sätzen und Fragen

Mehr

English grammar BLOCK F:

English grammar BLOCK F: Grammatik der englischen Sprache UNIT 24 2. Klasse Seite 1 von 13 English grammar BLOCK F: UNIT 21 Say it more politely Kennzeichen der Modalverben May and can Adverbs of manner Irregular adverbs Synonyms

Mehr

NLP im Information Retrieval

NLP im Information Retrieval NLP im Information Retrieval Tokenisierung Stoppwortlisten Stemming, Morphologische Analyse, Kompositazerlegung Flaches Parsing: Phrasen, Mehrwortlexeme N-Gramme Lesartendisambiguierung Thesauri, Semantische

Mehr

The English Tenses Die englischen Zeitformen

The English Tenses Die englischen Zeitformen The English Tenses Die englischen Zeitformen Simple Present (Präsens einfache Gegenwart) Handlungen in der Gegenwart die sich regelmäßig wiederholen oder einmalig geschehen I go you go he goes she goes

Mehr

Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250

Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250 Kapitel 16 Begriffe HHU Düsseldorf, WS 2008/09 Information Retrieval 250 Semantisches Umfeld "Find what I mean, not what I say" (Susan Feldman) natürlichsprachiges Umfeld Werkzeug: natürlichsprachiger

Mehr

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Regel 1: Wie kann ich einen Besitz ausdrücken?

Regel 1: Wie kann ich einen Besitz ausdrücken? Regel 1: Wie kann ich einen Besitz ausdrücken? - mein Auto, dein Haus, unser Klassenraum besitzanzeigender Begleiter (= Possessive Pronoun) - Lisas Familie, Thomas Freund, Bernds Zimmer Wessen-Fall (Genitiv-S)

Mehr

Grundbegriffe des Information Retrieval

Grundbegriffe des Information Retrieval Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

1. Vorlesung,

1. Vorlesung, 1. Vorlesung, 16.10.2006 Einführung und Motivation, Beispiel Information versus Daten Grundlegende Konzepte Aufgaben des Anwenders Logische Sicht auf Dokumente Dokumentvorverarbeitung Dokumentsuche mit

Mehr

Name: Abgabe: Montag, Blatt 10

Name: Abgabe: Montag, Blatt 10 Name: Abgabe: Montag, 26.1.2004 http://www-i1.informatik.rwth-aachen.de/infoki/engl5k/index.htm Blatt 10 Aufgabe 1 Übersetzen Übersetze die Geschichte über den kleinen Frosch aus dem Park. Sarah und Robert

Mehr

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010 Finite-State-Morphologie in XLE Grammatikentwicklung, SS 2010 1 / 20 Worum es heute geht: Nutzen von Finite-State-Morphologien... und wie man sie in XLE einbaut 2 / 20 Lexikon in XLE Bis jetzt: so genanntes

Mehr

HS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln. Edit distance. Referentinnen: Alena Geduldig, Kim Opgenoorth

HS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln. Edit distance. Referentinnen: Alena Geduldig, Kim Opgenoorth HS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln Edit distance Referentinnen: Alena Geduldig, Kim Opgenoorth inexact matching Problem Erkenne, finde und toleriere

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Unit 2. Simple Past (kurz) Past Progressive - lang andauernd

Unit 2. Simple Past (kurz) Past Progressive - lang andauernd Unit 2 1) The Past Progressive (Verlaufsform in der Vergangenheit) Wie für die Gegenwart (Present Progressive), gibt es auch für die Vergangenheit eine Verlaufsform für länger andauernde Handlungen: Verwendung:

Mehr

Colors and Shapes at the Park Part 1

Colors and Shapes at the Park Part 1 Hallo. Mein Name is Jojo _ Hello. My name is Jojo Hallo Lulu! _ Hello Lulu! Hallo Jojo! _ Hello Jojo! Lass uns zum Park gehen! _ Let's go to the park! Der Park _ The park Lasst uns zum Park gehen! _ Let's

Mehr

Studienprojekt TaxoSearch Spezifikation

Studienprojekt TaxoSearch Spezifikation Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna

Mehr

Prepositions are words that give information to the reader. Vorwörter geben dem Leser Informationen.

Prepositions are words that give information to the reader. Vorwörter geben dem Leser Informationen. What is the role of prepositions? Prepositions are words that give information to the reader. They can tell us where something takes place when something takes place why something takes place or give a

Mehr

Datenvorverarbeitung von nominalen Daten für Data Mining

Datenvorverarbeitung von nominalen Daten für Data Mining Datenvorverarbeitung von nominalen Daten für Data Mining Entstanden 2004/2005 bei der T-Systems International GmbH unter Betreuung von Prof. Dr. J. Fürnkranz Seite 1 Gliederung Datenvorverarbeitung Prepared

Mehr

Relationales Datenbanksystem Oracle

Relationales Datenbanksystem Oracle Relationales Datenbanksystem Oracle 1 Relationales Modell Im relationalen Modell wird ein relationales Datenbankschema wie folgt beschrieben: RS = R 1 X 1 SC 1... R n X n SC n SC a a : i=1...n X i B Information

Mehr

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany BIW Wahlpflichtmodul Einführung in Solr, Pipeline und REST Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2018-05-29 Überblick über gängige Lösungen 2 3 in a nutshell

Mehr

19. Dynamic Programming I

19. Dynamic Programming I 495 19. Dynamic Programming I Fibonacci, Längste aufsteigende Teilfolge, längste gemeinsame Teilfolge, Editierdistanz, Matrixkettenmultiplikation, Matrixmultiplikation nach Strassen [Ottman/Widmayer, Kap.

Mehr

Suchen in Texten. Naives Suchen Verfahren von Knuth-Morris-Pratt Verfahren von Boyer-Moore Ähnlichkeitssuchen Editierdistanz

Suchen in Texten. Naives Suchen Verfahren von Knuth-Morris-Pratt Verfahren von Boyer-Moore Ähnlichkeitssuchen Editierdistanz Suchen in Texten Naives Suchen Verfahren von Knuth-Morris-Pratt Verfahren von Boyer-Moore Ähnlichkeitssuchen Editierdistanz Textsuche Gegeben ist ein Zeichensatz (Alphabet) Σ. Für einen Text T Σ n und

Mehr

i Korrekturlauf mit Acrobat Reader - Correction workflow using Acrobat Reader i.1 Vorbereitung / Preparations

i Korrekturlauf mit Acrobat Reader - Correction workflow using Acrobat Reader i.1 Vorbereitung / Preparations IPPS UND RICKS KORREKURLAUF MI ACROBA READER - CORRECION WORKFLOW USING ACROBA READER i Korrekturlauf mit Acrobat Reader - Correction workflow using Acrobat Reader i.1 Vorbereitung / Preparations VOREINSELLUNGEN

Mehr

Übungsaufgaben zur Herstellung von Registern

Übungsaufgaben zur Herstellung von Registern Übungsaufgaben zur Herstellung von Registern Für die folgenden Übungen benötigen Sie ein Textverarbeitungsprogramm, das über eine Funktion zur automatischen Registererstellung verfügt (beispielsweise Microsoft

Mehr

Inhalt. Topics and Worksheets Vorwort Hinweise zum ActiveBook

Inhalt. Topics and Worksheets Vorwort Hinweise zum ActiveBook Inhalt Vorwort Hinweise zum ActiveBook Topics and Worksheets... 1 Topic 1: Reading: Chasing the cheese... 2 Grammar: Simple past and present perfect revision... 4 Vocabulary: Naming parts of a picture...

Mehr

Information Retrieval and Semantic Technologies

Information Retrieval and Semantic Technologies Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen

Mehr

WordNet. Referat von Johannes Braunias im Proseminar Word Sense Disambiguation bei Stefan Thater im Wintersemester

WordNet. Referat von Johannes Braunias im Proseminar Word Sense Disambiguation bei Stefan Thater im Wintersemester WordNet Referat von Johannes Braunias im Proseminar Word Sense Disambiguation bei Stefan Thater im Wintersemester 2010 15. November 2010 Synonymie Eine bestimmte Wortform in einem Satz, die durch eine

Mehr

Kopiervorlagen. Rechtschreibung und Wortkunde. Schülerduden. Arbeitsblätter zur Benutzung eines Wörterbuchs zum Üben und Wiederholen 5. bis 10.

Kopiervorlagen. Rechtschreibung und Wortkunde. Schülerduden. Arbeitsblätter zur Benutzung eines Wörterbuchs zum Üben und Wiederholen 5. bis 10. Kopiervorlagen Schülerduden Rechtschreibung und Wortkunde Arbeitsblätter zur Benutzung eines Wörterbuchs zum Üben und Wiederholen 5. bis 10. Klasse Für den Deutschunterricht an Gymnasium, Realschule und

Mehr

Textdokument-Suche auf dem Rechner Implementierungsprojekt

Textdokument-Suche auf dem Rechner Implementierungsprojekt Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Materialien zu unseren Lehrwerken

Materialien zu unseren Lehrwerken Word order Word order is important in English. The word order for subjects, verbs and objects is normally fixed. The word order for adverbial and prepositional phrases is more flexible, but their position

Mehr

Einführung in die Computerlinguistik. Morphologie II

Einführung in die Computerlinguistik. Morphologie II Einführung in die Computerlinguistik Morphologie II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 30.11.2015 Schütze & Zangenfeind: Morphologie II 1

Mehr

KAPITEL I EINLEITUNG

KAPITEL I EINLEITUNG KAPITEL I EINLEITUNG A. Der Hintergrund Die Wortklasse oder part of speech hat verschiedene Merkmale. Nach dem traditionellen System werden die deutschen Wortklassen in zehn Klassen unterteilt (Gross,

Mehr

Kapitel IR:IV. IV. Indexkonstruktion. Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung

Kapitel IR:IV. IV. Indexkonstruktion. Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung Kapitel IR:IV IV. Indexkonstruktion Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung IR:IV-1 Index Construction STEIN 2005-2010 Bemerkungen: Die im folgenden vorgstellten Techniken und

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik

Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik Die wichtigen Regeln im Unterricht orellfüssli Verlag AG / Vorwort 9 TeilA Regelorientierter Rechtschreibunterricht 11 1 Nachsprech-,

Mehr

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015

Mehr

WAS IST DER KOMPARATIV: = The comparative

WAS IST DER KOMPARATIV: = The comparative DER KOMPATATIV VON ADJEKTIVEN UND ADVERBEN WAS IST DER KOMPARATIV: = The comparative Der Komparativ vergleicht zwei Sachen (durch ein Adjektiv oder ein Adverb) The comparative is exactly what it sounds

Mehr

Kapitel 18 Fehlertolerantes Retrieval

Kapitel 18 Fehlertolerantes Retrieval Kapitel 18 Fehlertolerantes Retrieval HHU Düsseldorf, WS 2008/09 Information Retrieval 272 Eingabefehler in den Dokumenten in den Suchanfragen Formen Leerzeichenfehler ("...ofthe..."; "th_ebook") Fehler

Mehr

Topic 2: Reading: T-shirts and jeans Grammar: Past tenses Vocabulary: Plural nouns Using your English: Mediation Test...

Topic 2: Reading: T-shirts and jeans Grammar: Past tenses Vocabulary: Plural nouns Using your English: Mediation Test... Inhalt Vorwort Hinweise zum ActiveBook Topics and Worksheets... 1 Topic 1: Reading: What shall we watch?... 2 Grammar: Present tenses... 6 Vocabulary: Prepositions... 8 Using your English: Situation practise...

Mehr

Lexikalisch-semantische Disambiguierung mit WordNet

Lexikalisch-semantische Disambiguierung mit WordNet Lexikalische Semantik Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens Paper: Rada Mihalcea & Dan I. Moldovan: A Method for Word Sense Disambiguation of Unrestricted Text Lexikalisch-semantische

Mehr

have got: to be: L I S T E N M A K E S A Y G O O N W R I T E L O O K A T B E S U R E B R I N G H E R E F I N D Schulhof, Spielplatz

have got: to be: L I S T E N M A K E S A Y G O O N W R I T E L O O K A T B E S U R E B R I N G H E R E F I N D Schulhof, Spielplatz Aufgabe 1 - Verbenrätsel - L I S T E N M A K E S A Y G O O N W R I T E L O O K A T B E S U R E B R I N G H E R E F I N D Schulhof, Spielplatz Aufgabe 2 - "to be" or "have got"? - Finde heraus, wo du im

Mehr

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie

Mehr

Vom Suchen und Finden - Google und andere Ansätze

Vom Suchen und Finden - Google und andere Ansätze Vom Suchen und Finden - Google und andere Ansätze Norbert Fuhr Universität Duisburg Essen FB Ingenieurwissenschaften Abteilung Informatik 12. Mai 2005 Gliederung 1 Einführung 2 Grundlagen 3 Erweiterte

Mehr

Einführung in PERL 2 Reguläre Ausdrücke

Einführung in PERL 2 Reguläre Ausdrücke Einführung in PERL 2 Reguläre Ausdrücke BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER und dem Buch `Einführung in Perl (Lama Buch) von RL Schwartz&T Phoenix sowie hwp://de.sel[tml.org/perl/sprache/regexpr.htm

Mehr

Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber

Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber Simullda Structured Interlingua MultiLingual Lexical Database Application Sonja Weber 1 Gliederung Background Begriffsklärung Multilinguale Datenbanken WordNet Maschinelle Übersetzung Formale Begriffsanalyse

Mehr

Sprachstatistik: Das Zipf sche Gesetz

Sprachstatistik: Das Zipf sche Gesetz Sprachstatistik: Das Zipf sche Gesetz Korpus-Workshop Thema Korpus-Statistik Thomas Wittig Universität Leipzig Institut für Informatik [email protected] Principle of Least Effort 2 George K. Zipf:

Mehr

Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik

Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik Die wichtigen Regeln im Unterricht orell füssli Verlag AG / PH P H Vorwort 9 TeilA Regelorientierter Rechtschreibunterricht 11 1 Nachsprech-,

Mehr

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie

Mehr

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval

Mehr

Informatik II: Algorithmen & Datenstrukturen. Blättern Sie nicht um bevor Sie dazu aufgefordert werden!

Informatik II: Algorithmen & Datenstrukturen. Blättern Sie nicht um bevor Sie dazu aufgefordert werden! Albert-Ludwigs-Universität Institut für Informatik Prof. Dr. F. Kuhn Informatik II: Algorithmen & Datenstrukturen Montag, 29. August, 2014, 14:00 17:00 Name:...........................................................

Mehr

Lexikalische Semantik. Was ist ein Wort? Was ist in einem Wort?

Lexikalische Semantik. Was ist ein Wort? Was ist in einem Wort? Lexikalische Semantik Was ist ein Wort? Was ist in einem Wort? Was ist ein Wort? Er machte nicht viele Wörter. Deine Wörter in Gottes Ohr! Ich stehe zu meinen Wörtern Ein Essay von 4000 Worten Im Deutschen

Mehr

Lektion 3: Nominativ und Akkusativ (nominative and accusative cases)

Lektion 3: Nominativ und Akkusativ (nominative and accusative cases) Lektion 3: Nominativ und Akkusativ (nominative and accusative cases) Das Verb bestimmt, in welchem Fall das Substantiv steht. Manche Verben wollen nur den Nominativ, andere wollen zusätzlich den Akkusativ

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS)

5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) 5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) Sommersemester 2009 Dr. Carsten Sinz, Universität Karlsruhe Datenstruktur BDD 2 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer:

Mehr

Inhaltsverzeichnis WORTKOMBINATIONEN... 1

Inhaltsverzeichnis WORTKOMBINATIONEN... 1 Wortkombinationen Inhaltsverzeichnis WORTKOMBINATIONEN... 1 Wortkombinationen Was leistet die Funktion Wortkombinationen? Die Funktion Wortkombinationen liefert eine Übersicht, welche Kombinationen von

Mehr