Tokenisierung und Lemmatisierung in Suchmaschinen

Ähnliche Dokumente
Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Morphologie. Sarah Bosch,

Einführung in die Computerlinguistik. Morphologie II

Das Flexionssystem des Deutschen: Allgemeines

Morphologie. Dazu gehört auch: Wortarten und ihre Einteilung. Morphologie ist die Lehre vom Strukturaufbau der Wörter.

Flexion. Grundkurs Germanistische Linguistik (Plenum) Judith Berman Derivationsmorphem vs. Flexionsmorphem

Hinweise zur flexionsmorphologischen Glossierung

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind

Morphologische Merkmale. Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle

Vorlesung Morphologie Flexion

PÄDAGOGISCHE FAKULTÄT. Einführung in die Morphologie der deutschen Sprache

Morphologie: Was bisher geschah. Morphologie IV. Morphologie. Überblick. Derivation

Inhalt. Einleitung... 9

Wortbildung und Wortbildungswandel

Lexikalische Morphologie. Flexionsmorphologie und lexikalische Morphologie Derivation Konversion Komposition Flexion vs.

Klausur in zwei Wochen Einführung in die Morphologie Flexion

Grundkurs Linguistik Wintersemester 2014/15. Morphologie. Jens Fleischhauer & Anja Latrouite

Inhalt. Einleitung. Wortarten 1

Morphologie in der Computerlinguistik - Grundlagen

Fragestellungen in der Morphologie: Morphologie. Fragestellungen in der Morphologie: Fragestellungen in der Morphologie:

Einführung in die Computerlinguistik. Morphologie I

Flexion bei Nomen Verbalflexion Flexion und Wortarten Repetitorium. Morphologie IV. Flexion. Gerrit Kentner. 19. Dezember / 34

Morphologie: Was bisher geschah. Morphologie IV. Morphologie. Überblick. Flexion

Wortarten I: Die Deklinierbaren

Grundkurs Linguistik - Morphologie

Morphologie! Zusammenfassung Phonologie! Zusammenfassung Phonetik! Neues Thema:" artikulatorische Phonetik! akustische Phonetik! auditive Phonetik!

Morphologie II Gross, L 11, 12 Kessel/Reimann, S

Einführung in die französische Morphologie

Gymbasis Deutsch: Grammatik Wortarten Verb: Bestimmung der infiniten Verben Lösung 1 Lösungsansätze Bestimmung der infiniten Verben

KAPITEL I EINLEITUNG

Natürlichsprachliche Systeme I Materialien zur Vorlesung

Morphologie und Wortbildung (II)

Fortsetzung: Worin die Struktur von Konstruktionen besteht. kleinste (grammatische) Bausteine: Morpheme, realisiert durch (Allo-)Morphe;

Ungarische Grammatik

Grundkurs Linguistik Morphologie

13. Wörter und Morpheme

Seminar Ib Wort, Name, Begriff, Terminus Sommersemester Morphologie. Walther v.hahn. v.hahn Universität Hamburg

Flexion. Der Wortstamm als Basis für die Flexion. Auszug aus Dudengrammatik (2016), Randnummern

Nikolaus Schpak-Dolt. Einführung in die Morphologie des Spanischen

Deutsch und andere Sprachen im Vergleich. Dr. Ellen Schulte-Bunert

Morphologie. Gerrit Kentner. May 4, 2010

Inhalt EINFÜHRUNG. 1. Einführung I Einführung II...26

Morphologie I. Lexikon & Wortschatz Was ist ein Wort? Wort und Wortform Flexionsmorphologie. Morphologie I 1

WORTBILDUNG - MORPHOLOGIE

Einführung in die Computerlinguistik

Wort. nicht flektierbar. flektierbar. nach Person, Numerus, Modus, Tempus, Genus verbi flektiert. nach Genus, Kasus, Numerus flektiert

Einführung in die Sprachwissenschaft des Deutschen. Morphologie. PD Dr. Alexandra Zepter

Inhaltsverzeichnis. Abkürzungen... 9 Niveaustufentests Tipps & Tricks Auf einen Blick Auf einen Blick Inhaltsverzeichnis

Inhalt EINFÜHRUNG. 1. Einführung I l. 2. Einführung II 26 XVII. Tabellenübersicht Schreibkonventionen Abkürzungen Zeichenerklärung

8. Flexion. Roland Schäfer. Wintersemester 2018/ Dezember Deutsche und niederländische Philologie Freie Universität Berlin

Morphologie. Lexikon Morphologie Syntax

Syntax und Morphologie. Einführungskurs 2. Vorlesung

Einführung in die französische Morphologie

Die Morphologie (d.h. Formenlehre) untersucht die Gestalt von Wörtern, genauer den Wortaufbau einer Sprache.

Morphologie. Ending Khoerudin Deutschabteilung FPBS UPI

Computerlinguistik I

Wortartenbestimmung: Sprachtypen MORPHOLOGIE. kurze Wiederholung: flektierende Sprachen: agglutinierende Sprachen:

Artikelspiel erstellt von L. Schikowski M.A., Universität Göttingen, IIK e.v. Göttingen, Gruppen-/Partnerarbeit

Centrum für Informations- und Sprachverarbeitung Uni München Repetitorium ZP Sommersemester 09. Morphologie. Alla Shashkina

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)

Einführung in die Linguistik Butt / Eulitz / Wiemer. Morphologie II

Morphologie. 1. Flexion und Derivation 2. Analyse mittels lexikalischer Regeln

D5 WA D5 WA D5 WA D5 WA

Relativsätze, Teil I

Grammatische Terminologie

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)

KASUS NUMERUS GENUS DEKLIN. MUSTER/PARA. -en Gen (Sg) Schw 10 / 26

ABSCHNITT I EINLEITUNG

Einführung in die Computerlinguistik Morphologie

Grammatikbingo Anleitung

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

Alle Menschen schaffen neue Wörter. Würden wir das nicht tun, klängen wir immer noch wie Höhlenbewohner (Ugh, ugh).

Übungsblätter. Schulgrammatik extra. Deutsch. 5. bis 10. Klasse. Kopiervorlagen zum Üben und Wiederholen von Grammatik

Morphologische Grundmerkmale prototypischer Adjektive: 1.) deklinierbar. 2.) freies Genus (Unterschied zu Nomen)

2 ARISTRANS WÖRTERBUCHAKTUALISIERUNG Morphologiereihen Semantische Angaben Verben...

Was ist ein Wort? Morphologie I Einf. in die Linguistik

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

Inhalt.

Kleine deutsche Grammatik für Schule und Alltag

Wortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten

Wortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten

Wie wird SIMILITUDO zu AFFINITAS?

Tokenisierung in Suchmaschinen ::: CIS, SOMMERSEMESTER 2016 :::

Englische Morphologie und Wortbildung

Einführung in die Sprachwissenschaft des Deutschen. Morphologie. PD Dr. Alexandra Zepter

Die Fälle Nominativ, Akkusativ und Dativ. NIVEAU NUMMER SPRACHE Anfänger A1_2057G_DE Deutsch

Die Fälle Nominativ, Akkusativ und Dativ. NIVEAU NUMMER SPRACHE Anfänger A1_2057G_DE Deutsch

Wortbildung: Derivation, Flexion, Komposition

Grammatik des Standarddeutschen. Michael Schecker

Begriffsammlung Deutsch. Das kleine Huser sche Nachschlagewerk

Einführung in die Computerlinguistik: Morphologie und Automaten I

2 Sprachliche Einheiten

Stichwortverzeichnis. Anhang. Bedingungssatz siehe Konditionalsatz Befehlsform

Phonetische Lexika Morphologische Analysen. Uwe D. Reichel IPSK, LMU München 9. Januar 2008

Kasus: Wiederholung GRAMMATIK. NIVEAU NUMMER SPRACHE Anfänger A2_2047G_DE Deutsch

Artikelwort/Pronomen und Adjektiv: Flexion

Lies die Sätze und schreibe die entsprechende Zeitform in das Kästchen!

Transkript:

Tokenisierung und Lemmatisierung in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2010 Stefan Langer stefan.langer@cis.uni-muenchen.de

Übung: Tokenisierung (5 min) Was ist versteht man unter Tokenisierung Für welche Sprachen ist nicht-triviale Tokensierung zwingend notwendig und warum? 2

Tokenisierung Aufteilen eines Textes in indizierbare Token Recht trivial für westliche und viele andere Sprachen; schwierig für Chinesisch, Japanisch, Thai 教育部即將首次辦國小英語教師英語能力檢核測驗 ยทไาษาภงยสเ หะารคเง สมรกแรปโ มรกแรปโ# หะารคเง ส#งย สเ#ยทไาษาภ

Tokenisierung westliche Sprachen: Herausforderungen Satzzeichen Bindestriche Tor-Chancen Torchancen Akronyme USA U.S.A Abkürzungen In einigen Sprachen: Angehängte Pronomina (arrivederci) (Klitika), Artikel u.ä. Komposita -> Morphologie

Tokensierung: Chinesisch, Japanisch, Thai Meiststatistischealgorithmenkombiniertmitwörterbüchern Meist statistische Algorithmen kombiniert mit Wörterbüchern Besondere Schwierigkeiten: Unbekannte Wörter Eigennamen 5

Übung (5 min) Welche Alternativen wären zur Implementierung von Suche denkbar zur echten Tokeniserung für Japanisch, Chinesisch oder Thai. 6

Lemmatisierung 7

Wie misst man die Qualität einer Suchmaschine: Trefferquote (Recall) und Genauigkeit (Precision) F A A F D 8

Grundbegriffe Morphologie Morphologie Griechisch: Lehre von den Formen. Teilgebiet der Linguistik, das sich mit Wortformen, der Wortbildung und der Flexion beschäftigt. Morphe Kleinste Einheiten auf Formebene; noch nicht einem Morphem zugeordnet. Allomorphe Unterschiedliche Morphe, die demselben Morphem zuzuordnen sind. Beispiele sind Affixvarianten (z.b. Pluralallomorphe -er, -en etc.) und Stammvarianten (Gans- Gäns- /geh- ging- gang-) Morphem Abstraktes phonologisch-semantisches Basiselement: Kleinste bedeutungstragende/funktionstragende Einheit.

Grundbegriffe Morphologie Lexikalisches/ grammatisches Morphem Lexikalische Morpheme haben eine semantische Funktion (Schirm, sprech-); grammatische Morpheme eine rein grammatische Funktion (z.b. Genitivsuffix). Freies/gebundenes Morphem Erstere kommen frei vor (kurz, Schirm), letzter nicht (-er, Him-). Stamm (a,b), ~Basismorphem, ~Grundmorphem, ~Wurzel(b) Morpheme oder Morphemkombinationen zu denen Flexionsendungen treten können (z.b. Schirm mit den Wortformen Schirms, Schirme etc.); lexikalisches Morphem (nicht Morphemkombination), das einer Wortform oder einer Reihe von Wortformen zugrundeliegt (z.b. Unsinnigkeit - Sinn).

Grundbegriffe Morphologie Affix - Suffix - Präfix - Infix - diskontinuierliche Morpheme; Flexionsaffixe, Derivationsaffixe Affixe sind Morpheme, die zu einem Stamm treten können um entweder eine Wortform (Flexionsaffix, Z.B.: Pluralsuffix wie in Kind - Kinder) oder ein neues Wort (Derivationsaffix z.b. das denominale Suffix -bar in wunder - wunderbar) zu erzeugen. Außerdem könne Affix unterschieden werden nach den Wortarten, zu denen sie treten/die sie erzeugen (nominale, verbale etc. Affixe); oder dannach, ob sie: an den Wortanfang angehängt werden (Präfix); Bsp.: un- in unmöglich; an das Wortende angehängt werden (Suffix), Bsp. -bar in wunderbar; innerhalb des Wortes eingeschoben werden (Infix), Bsp. -zu- in einzuschenken; aus mehreren Teilen bestehen (diskont. Morphem) - -ge-t in eingeschenkt.

Grundbegriffe Morphologie Derivation, Konversion, Komposition, Wortbildung Derivation (a. Ableitung) ist die Bildung neuer Wörter aus bestehenden Wörtern oder Wortstämmen. Meist geschieht dies durch Hinzufügung eines Affix. Beispiele: Glück - Unglück, Glück - glücklich. Konversion ist liegt vor bei Übertragung in eine andere Wortart ohne explizite Veränderung (deutsch-deutsch). Komposition ist die Bildung neuer Wörter aus zwei existierenden Lexemen, z.b. Wortbildung aus Wort und Bildung.

Isolierende, agglutinierende, flektierende Sprachen Unterteilung von Sprachen aufgrund der Flexionsmorphologie. Isolierende Sprache drücken (fast) alle grammatischen Beziehungen im Satz und syntaktische Merkmale durch separate Wörter (freie Morpheme) aus (z.b. Präpositionen). Als typisches Beispiel gilt Chinesisch; aber auch Englisch hat einige Merkmale isolierender Sprachen. Agglutinierende Sprachen realisieren gramm. Merkmale als jeweils separate Suffixe - Wörter sind leicht segmentierbar. Beispiele sind Finnisch oder Türkisch. Flektierende Sprachen realisieren gramm. Merkmale als Affixe, allerdings oft mehrere Merkmale in einem Affix; es treten auch Stammveränderungen auf. Deutsch und Latein können als flektierende Sprachen klassifiziert werden.

Übung Für eine oder mehrere Sprachen, die Sie kennen, begründen Sie: - warum morphologische Analyse im Kontext von Suchmaschinen wichtig/unwichtig ist. Für welche Wortarten ist morphologische Analyse wichtig? - Welches sind in der von Ihnen genannten Sprache die besonderen Schwierigkeiten 14

Die Wortarten des Deutschen (CISLEX-Klassifikation) Flektierende Wortarten Nomen Adjektiv Verb Determinator Pronomen Nichtflektierende Wortarten Adverb Partikel Verbpartikel Präposition Konjunktion Interjektion

Beispiel Das nominale Formenparadigma im Deutschen Nomina im Deutschen tragen Merkmale für folgende Flexionskategorien: Genus (inhärent bei Nomina) Das Deutsche hat 3 Genera; maskulin, feminin und neutrum. Kasus Im Deutschen gibt es 4 Kasus: Nominativ, Genitiv, Dativ und Akkusativ. Numerus 2 Numerusmerkmale (Singular und Plural) Somit hat jedes Nomen im Deutschen potentiell 8 Flexionsformen Traditionell wird unterschieden nach starker, schwacher, und gemischter Deklination

stark schwach gemischt sing. nom Tag, Kind, Nacht Mensch, Hase Staat gen Tages, Kindes, Nacht Menschen; Hasen Staats dat Tag(e); Kind(e), Nacht Menschen, Hasen Staat(e) akk Tag, Kind, Nacht Menschen, Hasen Staat plur nom Tage, Kinder, Nächte Menschen, Hasen Staaten gen Tage, Kinder, Nächte Menschen, Hasen Staaten dat Tagen, Kindern, Nächten Menschen; Hasen Staaten akk Tage, Kinder, Nächte Menschen, Hasen Staaten

Grundformenreduzierung Stemming Wörterbuchbasiert Wörterbuch + Regeln Dokumenten Suchmaschinen Rahmen Dokumenten:Dokument Suchmaschinen: Suchmaschine Rahmen:Rahmen Dokumenten:Dokument+en Suchmaschinen: Suchmaschine+n Rahmen:Rahmen+ Computers Merkels Computers:Computer Merkels:? Computers:Computer+s Merkels:Merkel+s 18

Lemmatisierung durch Expansion von Dokumententermen mit Lemmatisierung Index Document haus Lemmatizer haus Lemmas field: haus hauses häuser häusern Query häuser haus, hauses, häuser, häusern Normal field: haus ohne Alle Wortformen der Wörter im Dokument werden in den Index geschrieben. Die Sprache der Anfrage muss nicht bekannt sein 19

Lemmatisierung durch Reduktion Index Lemmas field: Mit Lemmatisierung Document maisons Lemmatizer (French) maisons maison maison - Normal field: maisons Lemmatizer maison maison Query maison ohne Wörter in Anfrage und Dokument werden auf die Grundform(en) reduziert. Dazu muss die Sprache der Anfrage bekannt sein 20

Lemmatisierung durch Anfrageexpansion Index Mit Lemmatisierung Document maisons Lemmatizer (French) NO ACTION maisons (lemma field not set) Lemmatizer maison maisons, maison Query maison ohne Lemmatisierung 21

Nominalkompositanalyse Blumen versand Internet such maschine Fuchs schwanz Bahn hof Tisch fuß ball 22