Natural Language Processing

Größe: px
Ab Seite anzeigen:

Download "Natural Language Processing"

Transkript

1 Natural Language Processing Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Prof. Dr. Johannes Maucher HdM MIB Version Oktober 2015 Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

2 Document History Version Date Changes Nr Initiale Version. Teile dieses Foliensatzes (Lemmatisierung und Stemming) befanden sich früher im Foliensatz Textpreprocessing Anpassungen für WS 13/14 Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

3 Übersicht Vorlesung Text Preprocessing 1 Einführung Sinn und Zweck dieser Vorlesung 2 Morphologie Morphologisches Parsen 3 Morphologie Parser Anwendungen Parser Realisierung 4 Normalisierung durch Stemming und Lemmatisierung 5 Ähnlichkeit zwischen Zeichenketten Minimum Edit Distance Berechnung der MED Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

4 Einführung Sinn und Zweck dieser Vorlesung Lernziele Was ist Morphologie? Wortformen Wozu werden Morphologische Parser benötigt? Wie funktionieren morphologische Parser? Was ist Lemmatisierung? Was ist Stemming? Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

5 Morphologie Morphologie,Morpheme, Wortformen Morphologie untersucht den Aufbau von Wörtern aus Morphemen Morphem: Minimale bedeutungstragende Einheit in einer Sprache Beispiele für Morpheme in Wörtern: Schule n Nacht zug un fair nacht s Morpheme werden unterteilt in Stamm (Wurzel) (z.b. fair) und Affix (z.b. un). Die verschiedenen Wortformen eines Worts besitzen in der Regel den gleichen Stamm und unterscheiden sich in den Affixen Affixtypen: Suffix: Hund e Präfix: un heil Zirkumfix: ge leit et Freies Morphem kann eigenständig als Wort vorkommen (z.b. heilig) gebundene Morpheme können nur zusammen mit anderen Morphemen auftreten (z.b. un) Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

6 Morphologie Flexion und Wortbildung Morphologie wird unterteilt in Flexion und Wortbildung Wortbildung wird unterteilt in Komposition und Derivation Abbildung: Flexion und Wortbildung nach [Carstensen] Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

7 Morphologie Formveränderungen (Flexion) im Deutschen Deklination: Dekliniert werden Substantive, Adjektive, Artikel, Pronomen nach Geschlecht, Zahl und Fall. Beispiele: das farbige Bild, des farbigen Bildes, dem farbigen Bild, die farbigen Bilder, der farbigen Bilder, den farbigen Bildern Konjugation: Konjugiert werden Verben nach Person, Zahl, Zeit, Aussageweise und Handlungsart (Aktiv, Passiv). Beispiele: ich mache, du machst, er/sie/es machte, wir werden machen, ihr machtet, sie hätten gemacht, es wird gemacht Steigerung: Betrifft Adjektive: Grundstufe, Höherstufe, Höchststufe. Beispiele: schnell, schneller, am schnellsten gut, besser, am besten Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

8 Morphologie Morphologisches Parsen Morphologisches Parsen Eingabe: Wort in beliebiger Form Ausgabe: Morpheme, und morphologische Eigenschaften Beispiele: Eingabe Ausgabe Eingabe Ausgabe cities city+n+pl gehst geh+v+2.sg merging merge+v+prespart gehen geh+v+inf cats cat+n+pl gehen geh+v+3.pl Tabelle: Ein-und Ausgabe eines morphologischen Parsers Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

9 Morphologie Parser Morphologisches Parsing wird gebraucht für: Effiziente Realisierung elektronischer Wörterbücher: Es muss nicht für jedes Wort jede Wortform gespeichert werden. Häufig reichen Morpheme und morphologische Regeln, die z.b. die Flexion regelmäßiger Verben definieren. Rechtschreibkorrektur liefert Grundlage für merkmalsbasierte Grammatiken, die u.a. für syntaktische Analyse, semantische Analyse oder Grammatikkorrektur eingesetzt werden. Part-of-Speech-Tagging Web-Search benötigt Normalisierung (siehe nächste Seite) Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

10 Morphologie Parser Anwendungen Normalisierung Problem: Menschen benutzen verschiedene Wortformen (Beugungsformen) für die Beschreibung von Dingen, Anfragen, usw. Das vom Computer zu berechnende Antwort soll aber unabhängig von den verschiedenen Wortformen sein. Beispiele: Die in einem Review zu berechnende Stimmung soll unabhängig davon sein, ob z.b. mag, mochte, mögen, gemocht, mochten im Review geschrieben wurde. Folgende Suchanfragen sollten das gleiche Ergebnis liefern: Video konvertieren, Konvertierung von Video, Wie konvertiert man Videos, video konvertierung. Lösung: Vereinheitlichung der verschiedenen Formen durch Normalisierung Hier behandelete Normalisierungsmethoden: Abbildung auf ausschließlich Kleinbuchstaben oder ausschließlich Großbuchstaben Abbildung aller Wortformen auf Ihre Grundform mit Stemming oder Lemmatisierung Beachte: Durch die Normalisierung kann auch wertvolle Information verloren gehen, d.h. sie ist nicht in jeder Anwendung sinnvoll. Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

11 Morphologie Parser Anwendungen Einsatz der Normalisierung Die Textnormalisierung wird vor allem im Information Retrieval (IR) 1 eingesetzt. Normalisierung wird meist nach der Tokenisierung und vor der Indexierung durchgeführt. Der Index enthält dann nur die Wortstämme. Vorteile: weniger Speicheraufwand für den Index schnellere Suche im Index Bessere Suchergebnisse, da diese durch gestemmte Indexe unabhängig von den verschiedenen Beugungsformen sind. 1 Gezielte Suche nach Material (Dokumenten), das unstrukturierte Daten (Text) enthält Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

12 Morphologie Parser Parser Realisierung Morphologische Parser benötigen Lexikon, das alle Stämme und Affixe enthält und Zusatzinformation, z.b. Wortkategorie (POS) Morphologische Regeln: Beschreiben welche Morphem-Typen aufeinander folgen dürfen. Orthographische Regeln: Beschreiben z.b. Veränderung von Morphemen beim Zusammenfügen (Bsp.: city + s cities). Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

13 Morphologie Parser Parser Realisierung Modellierung von morphologischen Regelsystemen (Lexikas) mit endlichen Automaten (FSAs) (1) Abbildung: Präsens-Formen von beten in einem endlichen Automaten dargestellt Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

14 Morphologie Parser Parser Realisierung Modellierung von morphologischen Regelsystemen (Lexikas) mit FSAs (2) Abbildung: Erweiterung durch Hinzunahme weiterer Verbstämme Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

15 Morphologie Parser Parser Realisierung Modellierung von morphologischen Regelsystemen (Lexikas) mit FSAs (3) Abbildung: Erweiterung durch Hinzunahme der Präteritumformen Generierende Anwendung: Effiziente Repräsentation von elektronischen Wörterbüchern Analysierende Anwendung: Überprüfen auf Wohlgeformtheit. Jedoch noch keine Ausgabe der Form wie in Tabelle 1 möglich. Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

16 Morphologie Parser Parser Realisierung Vollständiges Parsing mit Finite State Transducer (FST) Gesucht: Parser, der vollständige Struktur wie in Tabelle 1 liefert. Also z.b. zur Eingabe beteten auch noch die Information liefert, dass es sich um eine Imperfekt-Form 1.PL oder 3.PL handelt. Lösung: Finite State Transducer (FST) FSA erzeugt Menge gültiger Morphemketten FST erzeugt Menge gültiger Abbildungen von Morphemketten auf andere Ketten Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

17 Morphologie Parser Parser Realisierung Finite State Transducer (FST) Abbildung: Verbformen im FST FST ermöglicht Analyse: beteten V impf 1PL Generierung: V impf 1PL beteten Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

18 Morphologie Parser Parser Realisierung Regelmäßige und unregelmäßige Verben Obige Beispiele: Regelmäßige Verben Bei regelmäßigen Verben bleibt der Verbstamm grundsätzlich in allen Zeiten und Modi unverändert. Bei unregelmäßigen Verben ist dies nicht der Fall, z.b. gehen, ging gegangen Unregelmäßige Verben müssen daher in jeweils eigenen (weniger kompakten) FSTs behandelt werden. Abbildung: Flexion regelmäßiger Verben im Präsens und Präteritum [Canoonet] Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

19 Morphologie Parser Parser Realisierung Orthographische Regeln (phonologisch) Für die verschiedenen Wortkategorien (Nomen, Verb, Adjektiv, usw.) sind neben den Flexionsregeln, die für alle Wörter der Klasse gelten, noch spezielle orthographische Regeln definiert, die vor allem die Aussprache erleichtern sollen. Für die Kategorie Verb gehört hierzu z.b.: e-erweiterung: Wenn der Verbstamm durch t, oder st gefolgt wird, muss z.b. bei Verben, deren Stamm auf d oder t endet, ein e eingefügt werden: e-tilgung Abbildung: Beispiel regelmäßiges Verb mit e-erweiterung Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

20 Morphologie Parser Parser Realisierung Realisierung orthographischer Regeln in FSTs Jede orthographische Regel (Besonderheit) kann in einer jeweils eigenen FST realisiert werden. Die orthographischen FSTs werden dann der lexikalischen FST nachgeschaltet (kaskadiert). Abbildung: Regelmäßiges Verb ohne Besonderheit Abbildung: Regelmäßiges Verb mit e-erweiterung Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

21 Normalisierung durch Stemming und Lemmatisierung Unterscheidung Stemming und Lemmatisierung Morphologische Parser werden für die Textnormalisierung in der Lemmatisierung und im Stemming eingesetzt. Lemmatisierung Jeder eingegebene Term wird auf eine lexikalische Grundform (Baseform) abgebildet, also auf ein in einem Wörterbuch enthaltenes Wort. Lemmatisierung liefert für die unterschiedlichen Part Of Speech (POS)-Kategorien (Verb, Substantiv, usw.) jeweils einen eigenen Stamm. Beispiele: Verbindlichkeiten Verbindlichkeit Sätze Satz läßt lassen Stemming Der eingegebene Term wird auf einen Kern reduziert. Der Kern ist nicht zwingend ein gültiger lexikalischer Eintrag. Beispiele: Verbindlichkeiten verbind Sätze satz läßt lasst Nach dem Stemming kann i.d.r. nicht mehr die POS bestimmt werden. Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

22 Normalisierung durch Stemming und Lemmatisierung Stemming: Verfahren Table Lookup: Wortstämme und deren Beugungen sind in Tabellen eingetragen. Die gebeugte Form kann damit eindeutig ihrem Stamm zugeordnet werden. Produktive Techniken: Automatische Generierung der Stamm-Beugungsform Tabelle durch Anwendung von Beugungsregeln (Realisierung durch FSTs). Affix Removal: Wörter werden auf bekannte Präfixe, Suffixe und Flexionsendungen geprüft und diese gegebenenfalls entfernt und/oder verändert. Typisch für diese Stemmer: Entferne zuerst die längste bekannte Sequenz und wiederhole bis keine bekannte Sequenz mehr gefunden werden kann. Bekanntester Vertreter dieser Klasse: Porter Stemmer: einfach und auch für deutsche Sprache implementiert Porter Stemmer [Snowball] ist eine lexikonlose FST: Enthält nur Regeln auf Affixe und unterscheidet nicht nach Stämmen. Aufwendig: die Regeln für die Affixe müssen für jede Sprache individuell erstellt werden. Maschinelles Lernen: Basierend auf einer relativ kleinen aber möglichst repräsentativen Tabelle von Stamm-Beugungsformen werden allgemeine Beugungsregeln gelernt und für diese für die allgemeine Stammbestimmung angewandt. Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

23 Normalisierung durch Stemming und Lemmatisierung Stemming mit NLTK (Englisch) Listing 1: Stemming englischer Worte # -*- coding:utf-8 -*- from nltk import PorterStemmer PortSt=PorterStemmer() #wordlist=["halten", "hältst", "hielt", "hieltst", "Halter", "Haltestelle", "haltmachen"] wordlist=["hunters", "were", "wounded"] print "%-20s%-20s" % ("Word", "Stemmed Word") print "-"*40 for w in wordlist: print "%-20s%-20s" % (w, PortSt.stem(w)) print Text1="""The next example will evaluate the model to see how accurate it is on a set of examples that are generated using a different random seed. The EvaluateModel task is given the parameters needed to load the model produced in the previous step, generate a new waveform stream with a random seed of 2, and test on one million examples: """ tokens = Text1.split() cleanedtokens= [t.strip( ().,:;!?-" ).lower() for t in tokens] print "%-20s%-20s" % ("Word", "Stemmed Word") print "-"*40 for t in cleanedtokens: print "%-20s%-20s" % (t, PortSt.stem(t)) Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

24 Normalisierung durch Stemming und Lemmatisierung Stemming mit NLTK (Deutsch) # -*- coding:utf-8 -*- from nltk.stem.snowball import GermanStemmer GerSt=GermanStemmer("german") print "%-20s%-20s" % ("Word", "Stemmed Word") print "-"*40 wordlist=["verbindlichkeiten", "Sätze", "läßt"] for w in wordlist: print "%-25s%-25s" % (w, GerSt.stem(w)) print Listing 2: Stemming deutscher Worte Text1="""Schaurig schön und kostenlos: Halloween steht vor der Tür, und mancher lädt sich jetzt einen gruseligen Bildschirmschoner aus dem Netz. Tanzende Skelette oder grinsende Kürbisköpfe - die Auswahl ist groß, aber nicht jeder Anbieter ist seriös. Mancher Bildschirmschoner bringt wirklich böse Geister in den Rechner: Schadprogramme, die den Nutzer ausspionieren oder seinen PC für kriminelle Aktivitäten missbrauchen. """ tokens = Text1.split() cleanedtokens= [t.strip( ().,:;!?-" ).lower() for t in tokens] print "%-25s%-25s" % ("Word", "Stemmed Word") print "-"*40 for w in cleanedtokens: print "%-25s%-25s" % (w, GerSt.stem(w)) Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

25 Normalisierung durch Stemming und Lemmatisierung Lemmatisierung: Verfahren Für die Lemmatisierung werden i.d.r. umfassende Wörterbücher eingesetzt, welche jeder Grundform eines Wortes die Beugungsformen zuordnen. In NLTK wird WordNet für die Lemmatisierung benutzt. Ein WordNet - ähnlicher Thesaurus für die deutsche Sprache ist GermaNet. Derzeit kann GermaNet nicht für die Lemmatisierung eingesetzt werden. Möglich: SOAP Zugriff auf Projekt Deutscher Wortschatz: Python Wrapper für DWS SOAP-Schnittstelle: Benötigt Suds Suds is a lightweight SOAP python client for consuming Web Services Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

26 Normalisierung durch Stemming und Lemmatisierung Lemmatisierung mit NLTK Listing 3: Lemmatisierung mit NLTK und WordNet # -*- coding:utf-8 -*- from nltk import WordNetLemmatizer wnlem=wordnetlemmatizer() #wordlist=["halten", "hältst", "hielt", "hieltst", "Halter", "Haltestelle", "haltmachen"] wordlist=["hunters", "were", "wounded"] print "%-20s%-20s" % ("Word", "Lemmatized Word") print "-"*40 for w in wordlist: print "%-20s%-20s" % (w, wnlem.lemmatize(w)) print Text1="""The next example will evaluate the model to see how accurate it is on a set of examples that are generated using a different random seed. The EvaluateModel task is given the parameters needed to load the model produced in the previous step, generate a new waveform stream with a random seed of 2, and test on one million examples: """ tokens = Text1.split() cleanedtokens= [t.strip( ().,:;!?-" ).lower() for t in tokens] print "%-20s%-20s" % ("Word", "Lemmatized Word") print "-"*40 for t in cleanedtokens: print "%-20s%-20s" % (t, wnlem.lemmatize(t)) Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

27 Normalisierung durch Stemming und Lemmatisierung Lemmatisierung (Deutsch) Listing 4: Lemmatisierung mit DWS # -*- coding:utf-8 -*- from libleipzig import * print "-"*80 print " Ermittlung der Grundform " HaltFam=[u"hielt",u"hielten",u"hieltst",u"hält",u"hältst",u"halte",u"hielten",u"gehalten",u"Halter" for r in HaltFam: print "Grundform von "+r+" :",Baseform(r) print " Ermittlung der Grundform " HaltFam=[u"Verbindlichkeiten",u"läßt",u"Sätze"] for r in HaltFam: print "Grundform von "+r+" :",Baseform(r) Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

28 Normalisierung durch Stemming und Lemmatisierung Normalisierung auf Groß- bzw. Kleinschreibung In Python: Für jedes Objekt s vom Typ String: s.lower() transformiert alle Buchstaben in s in Kleinbuchstaben s.upper() transformiert alle Buchstaben in s in Großbuchstaben Wann ist eine derartige Transformation nicht angebracht? Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

29 Ähnlichkeit zwischen Zeichenketten Minimum Edit Distance Anwendung: Wortkorrektur Bisher: Mit einem Morphologie Parser kann die Korrektheit eines Wortes überprüft werden. Jetzt: Wie kann ein ungültiges Wort korrigiert werden? Beispiel: Wort reimeit wird vom Parser als ungültig erkannt Welches ist das wahrscheinlichste korrekte Wort? Möglichkeiten: freiheit, einheit, reimen, eimer? Benötigt wird ein Maß (eine Metrik) zur Berechnung der Wortähnlichkeit. Lösung: Minimum Edit Distance Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

30 Ähnlichkeit zwischen Zeichenketten Minimum Edit Distance Minimum Edit Distance: Definition und Beispiel Minimum Edit Distance Die Minimum Edit Distance (MED) zwischen zwei Zeichenketten a und b ist die minimale Anzahl von Editieroperationen, die notwendig sind, um die eine Zeichenkette in die zweite zu überführen. Erlaubte Operationen sind: Einfügen eines Zeichens (I) Löschen eines Zeichens (D) Ersetzen eines Zeichens (R) Beispiel: Gegeben: a = Freiheit, b = reimeit; Gesucht: MED(a, b) Lösung: MED(a, b) = 2 source f r e i h e i t target r e i m e i t D R Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

31 Ähnlichkeit zwischen Zeichenketten Minimum Edit Distance Gewichtung der Kosten für die Editieroperationen Im Beispiel wurde angenommen, dass für alle 3 Editieroperationen die Kosten jeweils gleich 1 sind. Die Kosten für die unterschiedlichen Operationen können jedoch auch unterschiedlich gewichtet werden: Levenshtein Distanz: D und I kosten jeweils 1, R kostet 2. die Kosten können sogar individuell an die in der Operation beteiligten Buchstaben angepasst werden. Siehe z.b. Schreibmaschinendistanz Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

32 Ähnlichkeit zwischen Zeichenketten Berechnung der MED Berechnung der MED mit Dynamic Programming Dynamic Programming allgemein: Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

33 Ähnlichkeit zwischen Zeichenketten Berechnung der MED Berechnung der MED mit Dynamic Programming Dynamic Programming allgemein: Es gibt viele Pfade vom Start- zum Zielzustand Dynamic Programming findet den optimalen Pfad Prinzip: Wenn bekannt ist, dass der optimale Pfad vom Startzustand in einen beliebigen Zustand S über die Kanten p 1 und p 2 läuft, dann können auf der Suche nach dem optimalen Pfad vom Start ins Ziel alle anderen Pfade von Startzustand zum Zustand S ignoriert werden. Suche zunächst alle besten Pfade vom Start zu Zuständen in der Ebene 1, dann alle besten Pfade vom Startzustand zu Zuständen in Ebene 2, die über die besten Pfade der Länge 1 laufen, dann alle besten Pfade vom Startzustand zu Zuständen in Ebene 3, die über die besten Pfade der Länge 2 laufen,... Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

34 Ähnlichkeit zwischen Zeichenketten Berechnung der MED Dynamic Programming (DP) Ansatz für Zeichenkettenvergleich Vergleich von zwei Sequenzen Source: a, der Länge n, und Target: b, der Länge m. Erzeuge Tabelle D mit n Zeilen und m Spalten. An die Stelle D[i, j] wird die MED zwischen den ersten i Zeichen von a und den ersten j Zeichen von b geschrieben. Nach dem Dynamic Programming Ansatz kann die Berechnung der Einträge beginnend mit den kürzesten Teilsequenzen D[0, 0], D[0, 1],... D[0, m], D[1, 0], D[2, 0],..., D[n, 0] unter kontinuierlicher Erhöhung der Teilsequenzlängen aus den MEDs der jeweiligen MEDs der zuvor berechneten kürzeren Teilsequenzen berechnet werden. Erhöhung der Teilsequenzlängen, bis schließlich D[n, m] = MED(a, b) erreicht wird. Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

35 Ähnlichkeit zwischen Zeichenketten Berechnung der MED Dynamic Programming-Algorithmus für Bestimmung der MED 5 Initialisierung Rekursion 4 For all i [1, n] For all j [1, m] Termination D[i, j] = min D[i, 0] = i i [0, n] D[0, j] = j j [0, m] D[i 1, j] + 1 D[i, j 1] + 1 D[i 1, j 1] + { 2 if ai b j 0 if a i = b j MED(a, b) = D[n, m] 4 Hier und in den folgenden Tabellen unter Verwendung der Levenshtein Distanz 5 aus [Jurafsky] Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

36 Ähnlichkeit zwischen Zeichenketten Berechnung der MED Beispiel: DP-Bestimmung der MED 6 Berechnung der MED für die Sequenzen a = Intention und b = Execution 6 aus [Jurafsky] Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

37 Ähnlichkeit zwischen Zeichenketten Berechnung der MED Beispiel: DP-Bestimmung der MED 7 source I N T E N T I O N target E X E C U T I O N operation D R R I R 7 aus [Jurafsky] Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

38 Referenzen S. Bird, E. Klein, E. Loper Natural Language Processing with Python; O Reilly, 2009 K.-U. Carstensen, Ch. Ebert, C. Ebert, S. Jekat, R. Klabunde, H. Langer Computerlinguistik und Sprachtechnologie Spektrum-Verlag, 3. Auflage 2010 D. Jurafsky, J.H. Martin; Speech and Language Processing Language Processing; Pearson International Edition, 2009 Canoonet Deutsches Online Wörterbuch und Grammatik Snowball Project Snowball Porter Stemming Algorithm description Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Finite State Transducers und Morphologie Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 18 Morphologische Grundbegriffe (1) Wort / Lexem: abstrakte

Mehr

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie

Mehr

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie

Mehr

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren) Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren) Dozentin: Wiebke Petersen 7. Foliensatz Wiebke Petersen Einführung CL 1 Morphologische Grundbegrie Wort / Lexem: abstrakte

Mehr

Natürlichsprachliche Systeme I Materialien zur Vorlesung

Natürlichsprachliche Systeme I Materialien zur Vorlesung Natürlichsprachliche Systeme I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg WS 2010/11, 19. Oktober 2010,

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus

Mehr

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu

Mehr

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010 Finite-State-Morphologie in XLE Grammatikentwicklung, SS 2010 1 / 20 Worum es heute geht: Nutzen von Finite-State-Morphologien... und wie man sie in XLE einbaut 2 / 20 Lexikon in XLE Bis jetzt: so genanntes

Mehr

KASUS NUMERUS GENUS DEKLIN. MUSTER/PARA. -en Gen (Sg) Schw 10 / 26

KASUS NUMERUS GENUS DEKLIN. MUSTER/PARA. -en Gen (Sg) Schw 10 / 26 Adjektiv-Schema Deutsche Nomen und Adjektive haben wesentlich mehr Paradigmen als unterschiedliche lexikalische Formen. Für die Endungsformen -en und -e ergeben sich 26 bzw. 11 Paradigmen. Eine Darstellung

Mehr

Centrum für Informations- und Sprachverarbeitung Uni München Repetitorium ZP Sommersemester 09. Morphologie. Alla Shashkina

Centrum für Informations- und Sprachverarbeitung Uni München Repetitorium ZP Sommersemester 09. Morphologie. Alla Shashkina Morphologie Alla Shashkina Morphologie (= Formenlehre) untersucht systematische Beziehungen zwischen Wörtern und Wortformen Regeln, nach denen Wörter/Wortformen gebildet werden 2 Ziel in der Computerlinguistik

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:

Mehr

Natural Language Processing

Natural Language Processing Natural Language Processing Kapitel 1: Einführung Prof. Dr. Johannes Maucher HdM MIB Version 1.7 13.10.2017 Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 1: Einführung Version 1.7 13.10.2017 1 / 30

Mehr

Einführung in die Computerlinguistik: Morphologie und Automaten I

Einführung in die Computerlinguistik: Morphologie und Automaten I Einführung in die Computerlinguistik: Morphologie und Automaten I WS 2013/2014 Manfred Pinkal Morphologie Morphologie ist der Teilbereich der Linguistik, der sich mit der internen Struktur von Wörtern

Mehr

Seminar Ib Wort, Name, Begriff, Terminus Sommersemester Morphologie. Walther v.hahn. v.hahn Universität Hamburg

Seminar Ib Wort, Name, Begriff, Terminus Sommersemester Morphologie. Walther v.hahn. v.hahn Universität Hamburg Seminar Ib Wort, Name, Begriff, Terminus Sommersemester 2006 Morphologie Walther v.hahn v.hahn Universität Hamburg 2005 1 Morphologie: Definition Definitionen: Morphologie ist die Lehre von den Klassen

Mehr

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind Vertiefung der Grundlagen der Computerlinguistik Semesterüberblick und Einführung zur Dependenz Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 17.10.2017 Zangenfeind:

Mehr

Wann sind Codes eindeutig entschlüsselbar?

Wann sind Codes eindeutig entschlüsselbar? Wann sind Codes eindeutig entschlüsselbar? Definition Suffix Sei C ein Code. Ein Folge s {0, 1} heißt Suffix in C falls 1 c i, c j C : c i = c j s oder 2 c C und einen Suffix s in C: s = cs oder 3 c C

Mehr

Einführung in die französische Morphologie

Einführung in die französische Morphologie Nikolaus Schpak-Dolt Einführung in die französische Morphologie 2., neu bearbeitete Auflage Max Niemeyer Verlag Tübingen 2006 Inhalt Abkürzungen und Symbole Phomembestand XI XII Einleitung 1 l._ Gegenstandsbereich

Mehr

Nikolaus Schpak-Dolt. Einführung in die Morphologie des Spanischen

Nikolaus Schpak-Dolt. Einführung in die Morphologie des Spanischen Nikolaus Schpak-Dolt Einführung in die Morphologie des Spanischen Max Niemeyer Verlag Tübingen 1999 Inhalt Abkürzungen und Symbole XI Einleitung f. 1 1. Gegenstandsbereich der Morphologie 1 2. Diachronie

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 -

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 - 1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen I.2. I.2. Grundlagen von von Programmiersprachen. - 1 - 1. Der Begriff Informatik "Informatik" = Kunstwort aus Information und Mathematik

Mehr

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 -

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 - 1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen I.2. I.2. Grundlagen von von Programmiersprachen. - 1 - 1. Der Begriff Informatik "Informatik" = Kunstwort aus Information und Mathematik

Mehr

Einführung in die französische Morphologie

Einführung in die französische Morphologie Romanistische Arbeitshefte 36 Einführung in die französische Morphologie Bearbeitet von Nikolaus Schpak-Dolt 3., aktualisierte und erweiterte Auflage 2010. Taschenbuch. XII, 174 S. Paperback ISBN 978 3

Mehr

Konstruieren der SLR Parsing Tabelle

Konstruieren der SLR Parsing Tabelle Konstruieren der SLR Parsing Tabelle Kontextfreie Grammatik (CFG) Notation 1. Diese Symbole sind Terminals: (a) Kleinbuchstaben vom Anfang des Alphabets wie a, b, c. (b) Operator Symbole wie +,, usw. (c)

Mehr

19. Dynamic Programming I

19. Dynamic Programming I 495 19. Dynamic Programming I Fibonacci, Längste aufsteigende Teilfolge, längste gemeinsame Teilfolge, Editierdistanz, Matrixkettenmultiplikation, Matrixmultiplikation nach Strassen [Ottman/Widmayer, Kap.

Mehr

Sprachlehr- & Sprachlernsysteme

Sprachlehr- & Sprachlernsysteme Sprachlehr- & Sprachlernsysteme Tutorielle & Toolartige Systeme Einführung in die Computerlinguistik WS 04/05 Dozentin: Wiebke Petersen Referentin: Maria Ruhnke Tutorielle Systeme lernen durch Instruktion,

Mehr

HS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln. Edit distance. Referentinnen: Alena Geduldig, Kim Opgenoorth

HS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln. Edit distance. Referentinnen: Alena Geduldig, Kim Opgenoorth HS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln Edit distance Referentinnen: Alena Geduldig, Kim Opgenoorth inexact matching Problem Erkenne, finde und toleriere

Mehr

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche: Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 24/ 44 Zwei Beispiele a 0

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Computerlinguistik I

Computerlinguistik I Computerlinguistik I Vorlesung im WS 2007/08 Prof. Dr. Udo Hahn Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität Jena Morphologie A writer

Mehr

Morphologie. 1. Flexion und Derivation 2. Analyse mittels lexikalischer Regeln

Morphologie. 1. Flexion und Derivation 2. Analyse mittels lexikalischer Regeln Morphologie 1. Flexion und Derivation 2. Analyse mittels lexikalischer Regeln Morphologie Flexion Deklination Flexion der Nomina: Deklination Hund Hund-es Hund-e Hund-en (Stamm + Suffix) Mann Mann-es Männ-er

Mehr

Grammatiken und ANTLR

Grammatiken und ANTLR Grammatiken und ANTLR Zusatzfolien zu Algo Blatt 6 Author: Henry Schaefer http://www.majeeks.de/folien_blatt6.pdf Grammatik Definition: syntaktische Beschreibung einer Sprache (H.S.) Definiton Grammatik

Mehr

Dynamische Programmierung

Dynamische Programmierung Dynamische Programmierung Claudia Gerhold 9.5.6 Claudia Gerhold Dynamische Programmierung 9.5.6 / 4 Agenda Einführung Dynamische Programmierung Top-Down Ansatz mit Memoization Bottom-Up Ansatz 3 Anwendungsbeispiele

Mehr

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:

Mehr

Die Wortbildung des Deutschen. Wortbildungsmittel

Die Wortbildung des Deutschen. Wortbildungsmittel Die Wortbildung des Deutschen Wortbildungsmittel Voraussetzungen und Ziele der Wortbildungsanalyse Bildung von Wörtern folgt best. Wortbildungstypen Bildung nach Vorbild eines bereits bekannten Wortes

Mehr

Phonetische Lexika Morphologische Analysen. Uwe D. Reichel IPSK, LMU München 9. Januar 2008

Phonetische Lexika Morphologische Analysen. Uwe D. Reichel IPSK, LMU München 9. Januar 2008 Phonetische Lexika Morphologische Analysen Uwe D. Reichel IPSK, LMU München reichelu@phonetik.uni-muenchen.de 9. Januar 2008 Inhalt Terminologie Finite-State-Methoden Schwierigkeiten der deutschen Morphologie

Mehr

Aufbau eines Flexionslexikons für die Katalogbereinigung

Aufbau eines Flexionslexikons für die Katalogbereinigung Exposé der Studienarbeit: Aufbau eines Flexionslexikons für die Katalogbereinigung Eingereicht von: Johannes Kozakiewicz Institut für Informatik Humboldt-Universität zu Berlin Matr.Nr.: 186778 kozakiewicz@gmx.de

Mehr

Einführung in die Computerlinguistik Finite State Transducers und Morphologie

Einführung in die Computerlinguistik Finite State Transducers und Morphologie Einführung in die Compuerlinguisik Finie Sae Transducers und Morphologie Laura Heinrich-Heine-Universiä Düsseldorf Sommersemeser 2013 FST und Morphologie 1 Sommersemeser 2013 Morphologische Grundbegriffe

Mehr

Morphologie. Ending Khoerudin Deutschabteilung FPBS UPI

Morphologie. Ending Khoerudin Deutschabteilung FPBS UPI Morphologie Ending Khoerudin Deutschabteilung FPBS UPI Morphologie Was ist ein Wort? Morphologie ist linguistische Teildisziplin, die sich mit dem Gestalt, Flexion (Beugung) und Bildung von Wörtern beschäftigt.

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

Tagger for German. Online BRILL-Tagger für das Deutsche

Tagger for German. Online BRILL-Tagger für das Deutsche Tagger for German Online BRILL-Tagger für das Deutsche Morphologie V/Ü, Anke Holler Uni Heidelberg, SS2007 Nataliya Mytyay Éva Mújdricza 19.07.2007 Designed by: Dóra Dobos Tagger for German Eric Brill

Mehr

Einführung in die Computerlinguistik. Morphologie II

Einführung in die Computerlinguistik. Morphologie II Einführung in die Computerlinguistik Morphologie II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 30.11.2015 Schütze & Zangenfeind: Morphologie II 1

Mehr

Tokenisierung und Lemmatisierung in Suchmaschinen

Tokenisierung und Lemmatisierung in Suchmaschinen Tokenisierung und Lemmatisierung in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2010 Stefan Langer stefan.langer@cis.uni-muenchen.de Übung: Tokenisierung (5 min) Was ist

Mehr

Wortbildung und Wortbildungswandel

Wortbildung und Wortbildungswandel Germanistik Kira Wieler Wortbildung und Wortbildungswandel Studienarbeit Inhaltsverzeichnis 1 Einleitung... 2 2 Wortbildung... 2 2.1 Morphologische Grundbegriffe... 2 2.2 Arten der Wortbildung... 3 2.3

Mehr

9. Heuristische Suche

9. Heuristische Suche 9. Heuristische Suche Prof. Dr. Rudolf Kruse University of Magdeburg Faculty of Computer Science Magdeburg, Germany rudolf.kruse@cs.uni-magdeburg.de S Heuristische Suche Idee: Wir nutzen eine (heuristische)

Mehr

Studienprojekt TaxoSearch Spezifikation

Studienprojekt TaxoSearch Spezifikation Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna

Mehr

Einführung in das Natural Language Toolkit

Einführung in das Natural Language Toolkit Einführung in das Natural Language Toolkit Markus Ackermann Abteilung für Automatische Sprachverarbeitung (Universität Leipzig) 11. Mai 2011 Kurzeinführung nützliche

Mehr

Kapitel 5: Syntaxdiagramme und Grammatikregeln

Kapitel 5: Syntaxdiagramme und Grammatikregeln 5. Syntaxdiagramme und Grammatikregeln 5-1 Objektorientierte Programmierung (Winter 2010/2011) Kapitel 5: Syntaxdiagramme und Grammatikregeln Syntaxdiagramme Grammatikregeln (kontextfrei) Beispiele: Lexikalische

Mehr

Algorithmen und Formale Sprachen

Algorithmen und Formale Sprachen Algorithmen und Formale Sprachen Algorithmen und formale Sprachen Formale Sprachen und Algorithmen Formale Sprachen und formale Algorithmen (formale (Sprachen und Algorithmen)) ((formale Sprachen) und

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

Lateinische Morphologie: Anleitung

Lateinische Morphologie: Anleitung Im Folgenden geht es darum, eine knappe Anleitung für die morphologische Analyse einiger einfacher lateinischer Sätze zu geben. Diese folgt den Schritten, die in der ersten Einführung in die Arbeitsweise

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 Schütze & Zangenfeind: Konstituentensyntax

Mehr

Spezielle Themen der KI. NLP Natural Language Processing. Sprachverstehen

Spezielle Themen der KI. NLP Natural Language Processing. Sprachverstehen Spezielle Themen der KI NLP Natural Language Processing Sprachverstehen NLP - Verarbeitungsstufen des Sprachverstehen 2 Phonologie und Phonetik Phonologie Lautlehre oder Sprachgebilde-Lautlehre untersucht

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Algorithmen und Datenstrukturen II

Algorithmen und Datenstrukturen II Algorithmen und Datenstrukturen II Algorithmen zur Textverarbeitung III: D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg Sommer 2009,

Mehr

UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1. Übung 2. Spezifikation Schrittweise Verfeinerung

UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1. Übung 2. Spezifikation Schrittweise Verfeinerung UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1 Übung 2 Spezifikation Schrittweise Verfeinerung Institut für Pervasive Computing Johannes Kepler Universität Linz Altenberger Straße 69,

Mehr

Hidden-Markov-Modelle

Hidden-Markov-Modelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene

Mehr

Einführung in die Programmiertechnik

Einführung in die Programmiertechnik Einführung in die Programmiertechnik Formale Beschreibung von Programmiersprachen Lexikalische Regeln Definition von Wörtern (Lexem, Token) Gruppierung von Zeichen Lexikalische Kategorien: Klassen ähnlicher

Mehr

Lernmodul 7 Algorithmus von Dijkstra

Lernmodul 7 Algorithmus von Dijkstra Folie 1 von 30 Lernmodul 7 Algorithmus von Dijkstra Quelle: http://www.map24.de Folie 2 von 30 Algorithmus von Dijkstra Übersicht Kürzester Weg von A nach B in einem Graphen Problemstellung: Suche einer

Mehr

Sprachsynthese: Textnormalisierung

Sprachsynthese: Textnormalisierung Sprachsynthese: (Änderungen von F. Schiel 2016) Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu schiel@phonetik.uni-muenchen.de 24. Oktober 2016 Inhalt = Vorverarbeitung

Mehr

Kontrastive Linguistik und Lexikographie XII

Kontrastive Linguistik und Lexikographie XII Computer und zweisprachiges Wörterbuch moderne Lexikographie - intensive Verwendung der Elektronischen Datenverarbeitung (EDV) elektronische Wörterbücher (ewb) Bestimmung: z.t. wie bei Printwörterbüchern,

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

Der Viterbi Algorithmus

Der Viterbi Algorithmus M. 23.Juli.2007 Gliederung 1 2 3 Erfinder Andrew J. Viterbi 1967 zur Dekodierung von Faltungscodes entwickelt Auf Basis von entwickelt Erfinder Andrew J. Viterbi 1967 zur Dekodierung von Faltungscodes

Mehr

Was ist ein Wort? Morphologie I Einf. in die Linguistik

Was ist ein Wort? Morphologie I Einf. in die Linguistik Morphologie I Einf. in die Linguistik Was ist ein Wort? Ich will Rad fahren Ich will radfahren Ich will Räder fahren *Ich will räderfahren 1 Wenn es flektiert ist, ist es ein Wort. (und wenn es keine sichtbare

Mehr

Einleitung. Kapitel 1

Einleitung. Kapitel 1 Kapitel 1 Einleitung In diesem Abschnitt geben wir einen kurzen Überblick über den Inhalt der Vorlesung. Wir werden kurz die wesentlichen Probleme erläutern, die wir ansprechen wollen. Wir werden auch

Mehr

Installation und Benutzung. LangCorr ApS Erritsoegaardsvej 11 DK 7000 Fredericia Denmark

Installation und Benutzung. LangCorr ApS Erritsoegaardsvej 11 DK 7000 Fredericia Denmark Installation und Benutzung Herzlich Willkommen zu Language Corrector! Language Corrector herunterladen: Auf unserer Seite www.langcorr.com finden Sie unten, Mitte links, den Link zu LanguageCorrector.

Mehr

Inhaltsverzeichnis. Abkürzungen... 9 Niveaustufentests Tipps & Tricks Auf einen Blick Auf einen Blick Inhaltsverzeichnis

Inhaltsverzeichnis. Abkürzungen... 9 Niveaustufentests Tipps & Tricks Auf einen Blick Auf einen Blick Inhaltsverzeichnis Inhaltsverzeichnis Inhaltsverzeichnis Abkürzungen... 9 Niveaustufentests... 10 Tipps & Tricks... 18 1 Der Artikel... 25 1.1 Der bestimmte Artikel... 25 1.2 Der unbestimmte Artikel... 27 2 Das Substantiv...

Mehr

Kanditatenkolloqium Syntax - AG

Kanditatenkolloqium Syntax - AG Kanditatenkolloqium Syntax - AG 5 28.11.2017 Aufgabe C1) Erläutern bzw. diskutieren Sie die Originaltext-Schreibungen aufwändig (Z.13), zu Lasten (Z. 16), die McDonald s Entscheidung (Z. 25) und gentechnik

Mehr

Objektorientierte Programmierung. Kapitel 3: Syntaxdiagramme

Objektorientierte Programmierung. Kapitel 3: Syntaxdiagramme Stefan Brass: OOP (Java), 3. 1/31 Objektorientierte Programmierung Kapitel 3: Stefan Brass Martin-Luther-Universität Halle-Wittenberg Wintersemester 2014/15 http://www.informatik.uni-halle.de/ brass/oop14/

Mehr

8. A & D - Heapsort. Werden sehen, wie wir durch geschicktes Organsieren von Daten effiziente Algorithmen entwerfen können.

8. A & D - Heapsort. Werden sehen, wie wir durch geschicktes Organsieren von Daten effiziente Algorithmen entwerfen können. 8. A & D - Heapsort Werden sehen, wie wir durch geschicktes Organsieren von Daten effiziente Algorithmen entwerfen können. Genauer werden wir immer wieder benötigte Operationen durch Datenstrukturen unterstützen.

Mehr

PÄDAGOGISCHE FAKULTÄT. Einführung in die Morphologie der deutschen Sprache

PÄDAGOGISCHE FAKULTÄT. Einführung in die Morphologie der deutschen Sprache MASARYK - UNIVERSITÄT IN BRNO PÄDAGOGISCHE FAKULTÄT Lehrstuhl für deutsche Sprache und Literatur Einführung in die Morphologie der deutschen Sprache Studienmaterial für die Lehramtstudenten PhDr. Olga

Mehr

Kanditatenkolloqium Syntax - AG

Kanditatenkolloqium Syntax - AG Kanditatenkolloqium Syntax - AG 5 27.11.2017 Aufgabe C1) Erläutern bzw. diskutieren Sie die Originaltext-Schreibungen aufwändig (Z.13), zu Lasten (Z. 16), die McDonald s Entscheidung (Z. 25) und gentechnik

Mehr

Inverted Files for Text Search Engines

Inverted Files for Text Search Engines Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung

Mehr

Kontextfreie Grammatiken

Kontextfreie Grammatiken Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische

Mehr

5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)?

5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)? 5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)? Ladefaktor: α, n aktuelle Anzahl gespeicherter Werte m Tabellengröße. Einfacher Ansatz: rehash() a z c h s r b s h a z Wenn

Mehr

Wirtschaftsinformatik (PWIN) 5. Mentorium. Wirtschaftsinformatik (PWIN), SS2010, Professur für Mobile Business & Multilateral Security 1

Wirtschaftsinformatik (PWIN) 5. Mentorium. Wirtschaftsinformatik (PWIN), SS2010, Professur für Mobile Business & Multilateral Security 1 Wirtschaftsinformatik (PWIN) 5. Mentorium Algorithmen & XML Wirtschaftsinformatik (PWIN), SS2010, Professur für Mobile Business & Multilateral Security 1 Was ist ein Algorithmus? Präzise formulierte Verarbeitungsvorschrift

Mehr

Einführung. (Compiler) Prof. Dr. Oliver Braun. Letzte Änderung: :49. Einführung 1/26

Einführung. (Compiler) Prof. Dr. Oliver Braun. Letzte Änderung: :49. Einführung 1/26 Einführung (Compiler) Prof. Dr. Oliver Braun Letzte Änderung: 10.05.2017 15:49 Einführung 1/26 Ein Compiler ist ein Computerprogramm das ein Programm geschrieben in einer Sprache in ein Programm übersetzt

Mehr

Kapitel 18 Fehlertolerantes Retrieval

Kapitel 18 Fehlertolerantes Retrieval Kapitel 18 Fehlertolerantes Retrieval HHU Düsseldorf, WS 2008/09 Information Retrieval 272 Eingabefehler in den Dokumenten in den Suchanfragen Formen Leerzeichenfehler ("...ofthe..."; "th_ebook") Fehler

Mehr

KAPITEL I EINLEITUNG

KAPITEL I EINLEITUNG KAPITEL I EINLEITUNG A. Der Hintergrund Die Wortklasse oder part of speech hat verschiedene Merkmale. Nach dem traditionellen System werden die deutschen Wortklassen in zehn Klassen unterteilt (Gross,

Mehr

Einführung in die Computerlinguistik. Morphologie III

Einführung in die Computerlinguistik. Morphologie III Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Teil 111. Chart-Parsing

Teil 111. Chart-Parsing Teil 111 Chart-Parsing 102 Die im ersten Teil des Buches behandelten einfachen Parsingalgorithmen sind, anders als die meisten vor allem im Compilerbau verwendeten Algorithmen (z.b. die LLoder LR-Parsingalgorithmen),

Mehr

TU München. Hauptseminar: WS 2002 / Einführung in Suffix - Bäume

TU München. Hauptseminar: WS 2002 / Einführung in Suffix - Bäume TU München Hauptseminar: WS 2002 / 2003 Einführung in Suffix - Bäume Bearbeiterin: Shasha Meng Betreuerin: Barbara König Inhalt 1. Einleitung 1.1 Motivation 1.2 Eine kurze Geschichte 2. Tries 2.1 Basisdefinition

Mehr

Einführung in die Linguistik. Morphologie: Lösung

Einführung in die Linguistik. Morphologie: Lösung Einführung in die Linguistik WS05 Morphologie: Lösung Aufgabe 1 Welche Morpheme lassen sich in den folgenden Worten identifzieren und welche Bedeutung haben sie? Unterscheiden Sie zwischen: Flexion (Präfix,

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Earley Parsing. Parsing - WS 2012 / 2013 Lisa Orszullok & Anika Stallmann

Earley Parsing. Parsing - WS 2012 / 2013 Lisa Orszullok & Anika Stallmann Earley Parsing Parsing - WS 2012 / 2013 Lisa Orszullok & Anika Stallmann 12.12.2012 Agenda Basics Komponenten Earley Parsing - Recognizer Earley Parsing - Parser Vor- und Nachteile Parsing WS 2012/2013

Mehr

Plank, WS 03/04, EinfLing, M&S 4b 1 Morphologische Analyse:

Plank, WS 03/04, EinfLing, M&S 4b 1 Morphologische Analyse: Plank, WS 03/04, EinfLing, M&S 4b 1 Morphologische Analyse: Segmentieren in Morphe (gegebenenfalls) Zusammenfassen von Morphen als Realisierungen eines Morphems Erfassen von Allomorphie-Beziehungen (Art

Mehr

Informationsextraktion

Informationsextraktion Informationsextraktion Bestimmte Anwendungen bei der semantischen Verarbeitung erfordern keine tiefe linguistische Analyse mit exakter Disambiguierung (= eine einzige und korrekte Lesart). Hierzu gehört

Mehr

Grundkurs Linguistik - Morphologie

Grundkurs Linguistik - Morphologie Grundkurs Linguistik - Jens Fleischhauer fleischhauer@phil.uni-duesseldorf.de Heinrich-Heine Universität Düsseldorf; Abteilung für Allgemeine Sprachwissenschaft 10.11.2016; WS 2016/2017 1 / 21 Jens Fleischhauer

Mehr