Natural Language Processing
|
|
- Melanie Kramer
- vor 6 Jahren
- Abrufe
Transkript
1 Natural Language Processing Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Prof. Dr. Johannes Maucher HdM MIB Version Oktober 2015 Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
2 Document History Version Date Changes Nr Initiale Version. Teile dieses Foliensatzes (Lemmatisierung und Stemming) befanden sich früher im Foliensatz Textpreprocessing Anpassungen für WS 13/14 Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
3 Übersicht Vorlesung Text Preprocessing 1 Einführung Sinn und Zweck dieser Vorlesung 2 Morphologie Morphologisches Parsen 3 Morphologie Parser Anwendungen Parser Realisierung 4 Normalisierung durch Stemming und Lemmatisierung 5 Ähnlichkeit zwischen Zeichenketten Minimum Edit Distance Berechnung der MED Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
4 Einführung Sinn und Zweck dieser Vorlesung Lernziele Was ist Morphologie? Wortformen Wozu werden Morphologische Parser benötigt? Wie funktionieren morphologische Parser? Was ist Lemmatisierung? Was ist Stemming? Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
5 Morphologie Morphologie,Morpheme, Wortformen Morphologie untersucht den Aufbau von Wörtern aus Morphemen Morphem: Minimale bedeutungstragende Einheit in einer Sprache Beispiele für Morpheme in Wörtern: Schule n Nacht zug un fair nacht s Morpheme werden unterteilt in Stamm (Wurzel) (z.b. fair) und Affix (z.b. un). Die verschiedenen Wortformen eines Worts besitzen in der Regel den gleichen Stamm und unterscheiden sich in den Affixen Affixtypen: Suffix: Hund e Präfix: un heil Zirkumfix: ge leit et Freies Morphem kann eigenständig als Wort vorkommen (z.b. heilig) gebundene Morpheme können nur zusammen mit anderen Morphemen auftreten (z.b. un) Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
6 Morphologie Flexion und Wortbildung Morphologie wird unterteilt in Flexion und Wortbildung Wortbildung wird unterteilt in Komposition und Derivation Abbildung: Flexion und Wortbildung nach [Carstensen] Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
7 Morphologie Formveränderungen (Flexion) im Deutschen Deklination: Dekliniert werden Substantive, Adjektive, Artikel, Pronomen nach Geschlecht, Zahl und Fall. Beispiele: das farbige Bild, des farbigen Bildes, dem farbigen Bild, die farbigen Bilder, der farbigen Bilder, den farbigen Bildern Konjugation: Konjugiert werden Verben nach Person, Zahl, Zeit, Aussageweise und Handlungsart (Aktiv, Passiv). Beispiele: ich mache, du machst, er/sie/es machte, wir werden machen, ihr machtet, sie hätten gemacht, es wird gemacht Steigerung: Betrifft Adjektive: Grundstufe, Höherstufe, Höchststufe. Beispiele: schnell, schneller, am schnellsten gut, besser, am besten Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
8 Morphologie Morphologisches Parsen Morphologisches Parsen Eingabe: Wort in beliebiger Form Ausgabe: Morpheme, und morphologische Eigenschaften Beispiele: Eingabe Ausgabe Eingabe Ausgabe cities city+n+pl gehst geh+v+2.sg merging merge+v+prespart gehen geh+v+inf cats cat+n+pl gehen geh+v+3.pl Tabelle: Ein-und Ausgabe eines morphologischen Parsers Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
9 Morphologie Parser Morphologisches Parsing wird gebraucht für: Effiziente Realisierung elektronischer Wörterbücher: Es muss nicht für jedes Wort jede Wortform gespeichert werden. Häufig reichen Morpheme und morphologische Regeln, die z.b. die Flexion regelmäßiger Verben definieren. Rechtschreibkorrektur liefert Grundlage für merkmalsbasierte Grammatiken, die u.a. für syntaktische Analyse, semantische Analyse oder Grammatikkorrektur eingesetzt werden. Part-of-Speech-Tagging Web-Search benötigt Normalisierung (siehe nächste Seite) Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
10 Morphologie Parser Anwendungen Normalisierung Problem: Menschen benutzen verschiedene Wortformen (Beugungsformen) für die Beschreibung von Dingen, Anfragen, usw. Das vom Computer zu berechnende Antwort soll aber unabhängig von den verschiedenen Wortformen sein. Beispiele: Die in einem Review zu berechnende Stimmung soll unabhängig davon sein, ob z.b. mag, mochte, mögen, gemocht, mochten im Review geschrieben wurde. Folgende Suchanfragen sollten das gleiche Ergebnis liefern: Video konvertieren, Konvertierung von Video, Wie konvertiert man Videos, video konvertierung. Lösung: Vereinheitlichung der verschiedenen Formen durch Normalisierung Hier behandelete Normalisierungsmethoden: Abbildung auf ausschließlich Kleinbuchstaben oder ausschließlich Großbuchstaben Abbildung aller Wortformen auf Ihre Grundform mit Stemming oder Lemmatisierung Beachte: Durch die Normalisierung kann auch wertvolle Information verloren gehen, d.h. sie ist nicht in jeder Anwendung sinnvoll. Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
11 Morphologie Parser Anwendungen Einsatz der Normalisierung Die Textnormalisierung wird vor allem im Information Retrieval (IR) 1 eingesetzt. Normalisierung wird meist nach der Tokenisierung und vor der Indexierung durchgeführt. Der Index enthält dann nur die Wortstämme. Vorteile: weniger Speicheraufwand für den Index schnellere Suche im Index Bessere Suchergebnisse, da diese durch gestemmte Indexe unabhängig von den verschiedenen Beugungsformen sind. 1 Gezielte Suche nach Material (Dokumenten), das unstrukturierte Daten (Text) enthält Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
12 Morphologie Parser Parser Realisierung Morphologische Parser benötigen Lexikon, das alle Stämme und Affixe enthält und Zusatzinformation, z.b. Wortkategorie (POS) Morphologische Regeln: Beschreiben welche Morphem-Typen aufeinander folgen dürfen. Orthographische Regeln: Beschreiben z.b. Veränderung von Morphemen beim Zusammenfügen (Bsp.: city + s cities). Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
13 Morphologie Parser Parser Realisierung Modellierung von morphologischen Regelsystemen (Lexikas) mit endlichen Automaten (FSAs) (1) Abbildung: Präsens-Formen von beten in einem endlichen Automaten dargestellt Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
14 Morphologie Parser Parser Realisierung Modellierung von morphologischen Regelsystemen (Lexikas) mit FSAs (2) Abbildung: Erweiterung durch Hinzunahme weiterer Verbstämme Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
15 Morphologie Parser Parser Realisierung Modellierung von morphologischen Regelsystemen (Lexikas) mit FSAs (3) Abbildung: Erweiterung durch Hinzunahme der Präteritumformen Generierende Anwendung: Effiziente Repräsentation von elektronischen Wörterbüchern Analysierende Anwendung: Überprüfen auf Wohlgeformtheit. Jedoch noch keine Ausgabe der Form wie in Tabelle 1 möglich. Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
16 Morphologie Parser Parser Realisierung Vollständiges Parsing mit Finite State Transducer (FST) Gesucht: Parser, der vollständige Struktur wie in Tabelle 1 liefert. Also z.b. zur Eingabe beteten auch noch die Information liefert, dass es sich um eine Imperfekt-Form 1.PL oder 3.PL handelt. Lösung: Finite State Transducer (FST) FSA erzeugt Menge gültiger Morphemketten FST erzeugt Menge gültiger Abbildungen von Morphemketten auf andere Ketten Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
17 Morphologie Parser Parser Realisierung Finite State Transducer (FST) Abbildung: Verbformen im FST FST ermöglicht Analyse: beteten V impf 1PL Generierung: V impf 1PL beteten Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
18 Morphologie Parser Parser Realisierung Regelmäßige und unregelmäßige Verben Obige Beispiele: Regelmäßige Verben Bei regelmäßigen Verben bleibt der Verbstamm grundsätzlich in allen Zeiten und Modi unverändert. Bei unregelmäßigen Verben ist dies nicht der Fall, z.b. gehen, ging gegangen Unregelmäßige Verben müssen daher in jeweils eigenen (weniger kompakten) FSTs behandelt werden. Abbildung: Flexion regelmäßiger Verben im Präsens und Präteritum [Canoonet] Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
19 Morphologie Parser Parser Realisierung Orthographische Regeln (phonologisch) Für die verschiedenen Wortkategorien (Nomen, Verb, Adjektiv, usw.) sind neben den Flexionsregeln, die für alle Wörter der Klasse gelten, noch spezielle orthographische Regeln definiert, die vor allem die Aussprache erleichtern sollen. Für die Kategorie Verb gehört hierzu z.b.: e-erweiterung: Wenn der Verbstamm durch t, oder st gefolgt wird, muss z.b. bei Verben, deren Stamm auf d oder t endet, ein e eingefügt werden: e-tilgung Abbildung: Beispiel regelmäßiges Verb mit e-erweiterung Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
20 Morphologie Parser Parser Realisierung Realisierung orthographischer Regeln in FSTs Jede orthographische Regel (Besonderheit) kann in einer jeweils eigenen FST realisiert werden. Die orthographischen FSTs werden dann der lexikalischen FST nachgeschaltet (kaskadiert). Abbildung: Regelmäßiges Verb ohne Besonderheit Abbildung: Regelmäßiges Verb mit e-erweiterung Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
21 Normalisierung durch Stemming und Lemmatisierung Unterscheidung Stemming und Lemmatisierung Morphologische Parser werden für die Textnormalisierung in der Lemmatisierung und im Stemming eingesetzt. Lemmatisierung Jeder eingegebene Term wird auf eine lexikalische Grundform (Baseform) abgebildet, also auf ein in einem Wörterbuch enthaltenes Wort. Lemmatisierung liefert für die unterschiedlichen Part Of Speech (POS)-Kategorien (Verb, Substantiv, usw.) jeweils einen eigenen Stamm. Beispiele: Verbindlichkeiten Verbindlichkeit Sätze Satz läßt lassen Stemming Der eingegebene Term wird auf einen Kern reduziert. Der Kern ist nicht zwingend ein gültiger lexikalischer Eintrag. Beispiele: Verbindlichkeiten verbind Sätze satz läßt lasst Nach dem Stemming kann i.d.r. nicht mehr die POS bestimmt werden. Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
22 Normalisierung durch Stemming und Lemmatisierung Stemming: Verfahren Table Lookup: Wortstämme und deren Beugungen sind in Tabellen eingetragen. Die gebeugte Form kann damit eindeutig ihrem Stamm zugeordnet werden. Produktive Techniken: Automatische Generierung der Stamm-Beugungsform Tabelle durch Anwendung von Beugungsregeln (Realisierung durch FSTs). Affix Removal: Wörter werden auf bekannte Präfixe, Suffixe und Flexionsendungen geprüft und diese gegebenenfalls entfernt und/oder verändert. Typisch für diese Stemmer: Entferne zuerst die längste bekannte Sequenz und wiederhole bis keine bekannte Sequenz mehr gefunden werden kann. Bekanntester Vertreter dieser Klasse: Porter Stemmer: einfach und auch für deutsche Sprache implementiert Porter Stemmer [Snowball] ist eine lexikonlose FST: Enthält nur Regeln auf Affixe und unterscheidet nicht nach Stämmen. Aufwendig: die Regeln für die Affixe müssen für jede Sprache individuell erstellt werden. Maschinelles Lernen: Basierend auf einer relativ kleinen aber möglichst repräsentativen Tabelle von Stamm-Beugungsformen werden allgemeine Beugungsregeln gelernt und für diese für die allgemeine Stammbestimmung angewandt. Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
23 Normalisierung durch Stemming und Lemmatisierung Stemming mit NLTK (Englisch) Listing 1: Stemming englischer Worte # -*- coding:utf-8 -*- from nltk import PorterStemmer PortSt=PorterStemmer() #wordlist=["halten", "hältst", "hielt", "hieltst", "Halter", "Haltestelle", "haltmachen"] wordlist=["hunters", "were", "wounded"] print "%-20s%-20s" % ("Word", "Stemmed Word") print "-"*40 for w in wordlist: print "%-20s%-20s" % (w, PortSt.stem(w)) print Text1="""The next example will evaluate the model to see how accurate it is on a set of examples that are generated using a different random seed. The EvaluateModel task is given the parameters needed to load the model produced in the previous step, generate a new waveform stream with a random seed of 2, and test on one million examples: """ tokens = Text1.split() cleanedtokens= [t.strip( ().,:;!?-" ).lower() for t in tokens] print "%-20s%-20s" % ("Word", "Stemmed Word") print "-"*40 for t in cleanedtokens: print "%-20s%-20s" % (t, PortSt.stem(t)) Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
24 Normalisierung durch Stemming und Lemmatisierung Stemming mit NLTK (Deutsch) # -*- coding:utf-8 -*- from nltk.stem.snowball import GermanStemmer GerSt=GermanStemmer("german") print "%-20s%-20s" % ("Word", "Stemmed Word") print "-"*40 wordlist=["verbindlichkeiten", "Sätze", "läßt"] for w in wordlist: print "%-25s%-25s" % (w, GerSt.stem(w)) print Listing 2: Stemming deutscher Worte Text1="""Schaurig schön und kostenlos: Halloween steht vor der Tür, und mancher lädt sich jetzt einen gruseligen Bildschirmschoner aus dem Netz. Tanzende Skelette oder grinsende Kürbisköpfe - die Auswahl ist groß, aber nicht jeder Anbieter ist seriös. Mancher Bildschirmschoner bringt wirklich böse Geister in den Rechner: Schadprogramme, die den Nutzer ausspionieren oder seinen PC für kriminelle Aktivitäten missbrauchen. """ tokens = Text1.split() cleanedtokens= [t.strip( ().,:;!?-" ).lower() for t in tokens] print "%-25s%-25s" % ("Word", "Stemmed Word") print "-"*40 for w in cleanedtokens: print "%-25s%-25s" % (w, GerSt.stem(w)) Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
25 Normalisierung durch Stemming und Lemmatisierung Lemmatisierung: Verfahren Für die Lemmatisierung werden i.d.r. umfassende Wörterbücher eingesetzt, welche jeder Grundform eines Wortes die Beugungsformen zuordnen. In NLTK wird WordNet für die Lemmatisierung benutzt. Ein WordNet - ähnlicher Thesaurus für die deutsche Sprache ist GermaNet. Derzeit kann GermaNet nicht für die Lemmatisierung eingesetzt werden. Möglich: SOAP Zugriff auf Projekt Deutscher Wortschatz: Python Wrapper für DWS SOAP-Schnittstelle: Benötigt Suds Suds is a lightweight SOAP python client for consuming Web Services Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
26 Normalisierung durch Stemming und Lemmatisierung Lemmatisierung mit NLTK Listing 3: Lemmatisierung mit NLTK und WordNet # -*- coding:utf-8 -*- from nltk import WordNetLemmatizer wnlem=wordnetlemmatizer() #wordlist=["halten", "hältst", "hielt", "hieltst", "Halter", "Haltestelle", "haltmachen"] wordlist=["hunters", "were", "wounded"] print "%-20s%-20s" % ("Word", "Lemmatized Word") print "-"*40 for w in wordlist: print "%-20s%-20s" % (w, wnlem.lemmatize(w)) print Text1="""The next example will evaluate the model to see how accurate it is on a set of examples that are generated using a different random seed. The EvaluateModel task is given the parameters needed to load the model produced in the previous step, generate a new waveform stream with a random seed of 2, and test on one million examples: """ tokens = Text1.split() cleanedtokens= [t.strip( ().,:;!?-" ).lower() for t in tokens] print "%-20s%-20s" % ("Word", "Lemmatized Word") print "-"*40 for t in cleanedtokens: print "%-20s%-20s" % (t, wnlem.lemmatize(t)) Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
27 Normalisierung durch Stemming und Lemmatisierung Lemmatisierung (Deutsch) Listing 4: Lemmatisierung mit DWS # -*- coding:utf-8 -*- from libleipzig import * print "-"*80 print " Ermittlung der Grundform " HaltFam=[u"hielt",u"hielten",u"hieltst",u"hält",u"hältst",u"halte",u"hielten",u"gehalten",u"Halter" for r in HaltFam: print "Grundform von "+r+" :",Baseform(r) print " Ermittlung der Grundform " HaltFam=[u"Verbindlichkeiten",u"läßt",u"Sätze"] for r in HaltFam: print "Grundform von "+r+" :",Baseform(r) Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
28 Normalisierung durch Stemming und Lemmatisierung Normalisierung auf Groß- bzw. Kleinschreibung In Python: Für jedes Objekt s vom Typ String: s.lower() transformiert alle Buchstaben in s in Kleinbuchstaben s.upper() transformiert alle Buchstaben in s in Großbuchstaben Wann ist eine derartige Transformation nicht angebracht? Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
29 Ähnlichkeit zwischen Zeichenketten Minimum Edit Distance Anwendung: Wortkorrektur Bisher: Mit einem Morphologie Parser kann die Korrektheit eines Wortes überprüft werden. Jetzt: Wie kann ein ungültiges Wort korrigiert werden? Beispiel: Wort reimeit wird vom Parser als ungültig erkannt Welches ist das wahrscheinlichste korrekte Wort? Möglichkeiten: freiheit, einheit, reimen, eimer? Benötigt wird ein Maß (eine Metrik) zur Berechnung der Wortähnlichkeit. Lösung: Minimum Edit Distance Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
30 Ähnlichkeit zwischen Zeichenketten Minimum Edit Distance Minimum Edit Distance: Definition und Beispiel Minimum Edit Distance Die Minimum Edit Distance (MED) zwischen zwei Zeichenketten a und b ist die minimale Anzahl von Editieroperationen, die notwendig sind, um die eine Zeichenkette in die zweite zu überführen. Erlaubte Operationen sind: Einfügen eines Zeichens (I) Löschen eines Zeichens (D) Ersetzen eines Zeichens (R) Beispiel: Gegeben: a = Freiheit, b = reimeit; Gesucht: MED(a, b) Lösung: MED(a, b) = 2 source f r e i h e i t target r e i m e i t D R Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
31 Ähnlichkeit zwischen Zeichenketten Minimum Edit Distance Gewichtung der Kosten für die Editieroperationen Im Beispiel wurde angenommen, dass für alle 3 Editieroperationen die Kosten jeweils gleich 1 sind. Die Kosten für die unterschiedlichen Operationen können jedoch auch unterschiedlich gewichtet werden: Levenshtein Distanz: D und I kosten jeweils 1, R kostet 2. die Kosten können sogar individuell an die in der Operation beteiligten Buchstaben angepasst werden. Siehe z.b. Schreibmaschinendistanz Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
32 Ähnlichkeit zwischen Zeichenketten Berechnung der MED Berechnung der MED mit Dynamic Programming Dynamic Programming allgemein: Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
33 Ähnlichkeit zwischen Zeichenketten Berechnung der MED Berechnung der MED mit Dynamic Programming Dynamic Programming allgemein: Es gibt viele Pfade vom Start- zum Zielzustand Dynamic Programming findet den optimalen Pfad Prinzip: Wenn bekannt ist, dass der optimale Pfad vom Startzustand in einen beliebigen Zustand S über die Kanten p 1 und p 2 läuft, dann können auf der Suche nach dem optimalen Pfad vom Start ins Ziel alle anderen Pfade von Startzustand zum Zustand S ignoriert werden. Suche zunächst alle besten Pfade vom Start zu Zuständen in der Ebene 1, dann alle besten Pfade vom Startzustand zu Zuständen in Ebene 2, die über die besten Pfade der Länge 1 laufen, dann alle besten Pfade vom Startzustand zu Zuständen in Ebene 3, die über die besten Pfade der Länge 2 laufen,... Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
34 Ähnlichkeit zwischen Zeichenketten Berechnung der MED Dynamic Programming (DP) Ansatz für Zeichenkettenvergleich Vergleich von zwei Sequenzen Source: a, der Länge n, und Target: b, der Länge m. Erzeuge Tabelle D mit n Zeilen und m Spalten. An die Stelle D[i, j] wird die MED zwischen den ersten i Zeichen von a und den ersten j Zeichen von b geschrieben. Nach dem Dynamic Programming Ansatz kann die Berechnung der Einträge beginnend mit den kürzesten Teilsequenzen D[0, 0], D[0, 1],... D[0, m], D[1, 0], D[2, 0],..., D[n, 0] unter kontinuierlicher Erhöhung der Teilsequenzlängen aus den MEDs der jeweiligen MEDs der zuvor berechneten kürzeren Teilsequenzen berechnet werden. Erhöhung der Teilsequenzlängen, bis schließlich D[n, m] = MED(a, b) erreicht wird. Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
35 Ähnlichkeit zwischen Zeichenketten Berechnung der MED Dynamic Programming-Algorithmus für Bestimmung der MED 5 Initialisierung Rekursion 4 For all i [1, n] For all j [1, m] Termination D[i, j] = min D[i, 0] = i i [0, n] D[0, j] = j j [0, m] D[i 1, j] + 1 D[i, j 1] + 1 D[i 1, j 1] + { 2 if ai b j 0 if a i = b j MED(a, b) = D[n, m] 4 Hier und in den folgenden Tabellen unter Verwendung der Levenshtein Distanz 5 aus [Jurafsky] Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
36 Ähnlichkeit zwischen Zeichenketten Berechnung der MED Beispiel: DP-Bestimmung der MED 6 Berechnung der MED für die Sequenzen a = Intention und b = Execution 6 aus [Jurafsky] Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
37 Ähnlichkeit zwischen Zeichenketten Berechnung der MED Beispiel: DP-Bestimmung der MED 7 source I N T E N T I O N target E X E C U T I O N operation D R R I R 7 aus [Jurafsky] Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
38 Referenzen S. Bird, E. Klein, E. Loper Natural Language Processing with Python; O Reilly, 2009 K.-U. Carstensen, Ch. Ebert, C. Ebert, S. Jekat, R. Klabunde, H. Langer Computerlinguistik und Sprachtechnologie Spektrum-Verlag, 3. Auflage 2010 D. Jurafsky, J.H. Martin; Speech and Language Processing Language Processing; Pearson International Edition, 2009 Canoonet Deutsches Online Wörterbuch und Grammatik Snowball Project Snowball Porter Stemming Algorithm description Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 3: Wörter, Morphologie, Wortähnlichkeit Version Oktober / 38
Einführung in die Computerlinguistik
Einführung in die Computerlinguistik Finite State Transducers und Morphologie Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 18 Morphologische Grundbegriffe (1) Wort / Lexem: abstrakte
MehrEinführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren
Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie
MehrEinführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren
Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie
MehrEinführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)
Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren) Dozentin: Wiebke Petersen 7. Foliensatz Wiebke Petersen Einführung CL 1 Morphologische Grundbegrie Wort / Lexem: abstrakte
MehrNatürlichsprachliche Systeme I Materialien zur Vorlesung
Natürlichsprachliche Systeme I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg WS 2010/11, 19. Oktober 2010,
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrStemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig
Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus
MehrKorrekturprogramme. Von Emine Senol & Gihan S. El Hosami
Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu
MehrFinite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010
Finite-State-Morphologie in XLE Grammatikentwicklung, SS 2010 1 / 20 Worum es heute geht: Nutzen von Finite-State-Morphologien... und wie man sie in XLE einbaut 2 / 20 Lexikon in XLE Bis jetzt: so genanntes
MehrKASUS NUMERUS GENUS DEKLIN. MUSTER/PARA. -en Gen (Sg) Schw 10 / 26
Adjektiv-Schema Deutsche Nomen und Adjektive haben wesentlich mehr Paradigmen als unterschiedliche lexikalische Formen. Für die Endungsformen -en und -e ergeben sich 26 bzw. 11 Paradigmen. Eine Darstellung
MehrCentrum für Informations- und Sprachverarbeitung Uni München Repetitorium ZP Sommersemester 09. Morphologie. Alla Shashkina
Morphologie Alla Shashkina Morphologie (= Formenlehre) untersucht systematische Beziehungen zwischen Wörtern und Wortformen Regeln, nach denen Wörter/Wortformen gebildet werden 2 Ziel in der Computerlinguistik
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrSprachtechnologie als Grundlage für die maschinelle Auswertung von Texten
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrInterdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko
Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht
MehrEinführung Computerlinguistik. Konstituentensyntax II
Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:
MehrNatural Language Processing
Natural Language Processing Kapitel 1: Einführung Prof. Dr. Johannes Maucher HdM MIB Version 1.7 13.10.2017 Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 1: Einführung Version 1.7 13.10.2017 1 / 30
MehrEinführung in die Computerlinguistik: Morphologie und Automaten I
Einführung in die Computerlinguistik: Morphologie und Automaten I WS 2013/2014 Manfred Pinkal Morphologie Morphologie ist der Teilbereich der Linguistik, der sich mit der internen Struktur von Wörtern
MehrSeminar Ib Wort, Name, Begriff, Terminus Sommersemester Morphologie. Walther v.hahn. v.hahn Universität Hamburg
Seminar Ib Wort, Name, Begriff, Terminus Sommersemester 2006 Morphologie Walther v.hahn v.hahn Universität Hamburg 2005 1 Morphologie: Definition Definitionen: Morphologie ist die Lehre von den Klassen
MehrVertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind
Vertiefung der Grundlagen der Computerlinguistik Semesterüberblick und Einführung zur Dependenz Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 17.10.2017 Zangenfeind:
MehrWann sind Codes eindeutig entschlüsselbar?
Wann sind Codes eindeutig entschlüsselbar? Definition Suffix Sei C ein Code. Ein Folge s {0, 1} heißt Suffix in C falls 1 c i, c j C : c i = c j s oder 2 c C und einen Suffix s in C: s = cs oder 3 c C
MehrEinführung in die französische Morphologie
Nikolaus Schpak-Dolt Einführung in die französische Morphologie 2., neu bearbeitete Auflage Max Niemeyer Verlag Tübingen 2006 Inhalt Abkürzungen und Symbole Phomembestand XI XII Einleitung 1 l._ Gegenstandsbereich
MehrNikolaus Schpak-Dolt. Einführung in die Morphologie des Spanischen
Nikolaus Schpak-Dolt Einführung in die Morphologie des Spanischen Max Niemeyer Verlag Tübingen 1999 Inhalt Abkürzungen und Symbole XI Einleitung f. 1 1. Gegenstandsbereich der Morphologie 1 2. Diachronie
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
Mehr1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 -
1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen I.2. I.2. Grundlagen von von Programmiersprachen. - 1 - 1. Der Begriff Informatik "Informatik" = Kunstwort aus Information und Mathematik
Mehr1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 -
1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen I.2. I.2. Grundlagen von von Programmiersprachen. - 1 - 1. Der Begriff Informatik "Informatik" = Kunstwort aus Information und Mathematik
MehrEinführung in die französische Morphologie
Romanistische Arbeitshefte 36 Einführung in die französische Morphologie Bearbeitet von Nikolaus Schpak-Dolt 3., aktualisierte und erweiterte Auflage 2010. Taschenbuch. XII, 174 S. Paperback ISBN 978 3
MehrKonstruieren der SLR Parsing Tabelle
Konstruieren der SLR Parsing Tabelle Kontextfreie Grammatik (CFG) Notation 1. Diese Symbole sind Terminals: (a) Kleinbuchstaben vom Anfang des Alphabets wie a, b, c. (b) Operator Symbole wie +,, usw. (c)
Mehr19. Dynamic Programming I
495 19. Dynamic Programming I Fibonacci, Längste aufsteigende Teilfolge, längste gemeinsame Teilfolge, Editierdistanz, Matrixkettenmultiplikation, Matrixmultiplikation nach Strassen [Ottman/Widmayer, Kap.
MehrSprachlehr- & Sprachlernsysteme
Sprachlehr- & Sprachlernsysteme Tutorielle & Toolartige Systeme Einführung in die Computerlinguistik WS 04/05 Dozentin: Wiebke Petersen Referentin: Maria Ruhnke Tutorielle Systeme lernen durch Instruktion,
MehrHS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln. Edit distance. Referentinnen: Alena Geduldig, Kim Opgenoorth
HS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln Edit distance Referentinnen: Alena Geduldig, Kim Opgenoorth inexact matching Problem Erkenne, finde und toleriere
Mehr2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung
2 Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche: Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 24/ 44 Zwei Beispiele a 0
MehrAnwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
MehrComputerlinguistik I
Computerlinguistik I Vorlesung im WS 2007/08 Prof. Dr. Udo Hahn Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität Jena Morphologie A writer
MehrMorphologie. 1. Flexion und Derivation 2. Analyse mittels lexikalischer Regeln
Morphologie 1. Flexion und Derivation 2. Analyse mittels lexikalischer Regeln Morphologie Flexion Deklination Flexion der Nomina: Deklination Hund Hund-es Hund-e Hund-en (Stamm + Suffix) Mann Mann-es Männ-er
MehrGrammatiken und ANTLR
Grammatiken und ANTLR Zusatzfolien zu Algo Blatt 6 Author: Henry Schaefer http://www.majeeks.de/folien_blatt6.pdf Grammatik Definition: syntaktische Beschreibung einer Sprache (H.S.) Definiton Grammatik
MehrDynamische Programmierung
Dynamische Programmierung Claudia Gerhold 9.5.6 Claudia Gerhold Dynamische Programmierung 9.5.6 / 4 Agenda Einführung Dynamische Programmierung Top-Down Ansatz mit Memoization Bottom-Up Ansatz 3 Anwendungsbeispiele
MehrÜbersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene
Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:
MehrDie Wortbildung des Deutschen. Wortbildungsmittel
Die Wortbildung des Deutschen Wortbildungsmittel Voraussetzungen und Ziele der Wortbildungsanalyse Bildung von Wörtern folgt best. Wortbildungstypen Bildung nach Vorbild eines bereits bekannten Wortes
MehrPhonetische Lexika Morphologische Analysen. Uwe D. Reichel IPSK, LMU München 9. Januar 2008
Phonetische Lexika Morphologische Analysen Uwe D. Reichel IPSK, LMU München reichelu@phonetik.uni-muenchen.de 9. Januar 2008 Inhalt Terminologie Finite-State-Methoden Schwierigkeiten der deutschen Morphologie
MehrAufbau eines Flexionslexikons für die Katalogbereinigung
Exposé der Studienarbeit: Aufbau eines Flexionslexikons für die Katalogbereinigung Eingereicht von: Johannes Kozakiewicz Institut für Informatik Humboldt-Universität zu Berlin Matr.Nr.: 186778 kozakiewicz@gmx.de
MehrEinführung in die Computerlinguistik Finite State Transducers und Morphologie
Einführung in die Compuerlinguisik Finie Sae Transducers und Morphologie Laura Heinrich-Heine-Universiä Düsseldorf Sommersemeser 2013 FST und Morphologie 1 Sommersemeser 2013 Morphologische Grundbegriffe
MehrMorphologie. Ending Khoerudin Deutschabteilung FPBS UPI
Morphologie Ending Khoerudin Deutschabteilung FPBS UPI Morphologie Was ist ein Wort? Morphologie ist linguistische Teildisziplin, die sich mit dem Gestalt, Flexion (Beugung) und Bildung von Wörtern beschäftigt.
MehrDatenstrukturen & Algorithmen
Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale
MehrAutomatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale
MehrTagger for German. Online BRILL-Tagger für das Deutsche
Tagger for German Online BRILL-Tagger für das Deutsche Morphologie V/Ü, Anke Holler Uni Heidelberg, SS2007 Nataliya Mytyay Éva Mújdricza 19.07.2007 Designed by: Dóra Dobos Tagger for German Eric Brill
MehrEinführung in die Computerlinguistik. Morphologie II
Einführung in die Computerlinguistik Morphologie II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 30.11.2015 Schütze & Zangenfeind: Morphologie II 1
MehrTokenisierung und Lemmatisierung in Suchmaschinen
Tokenisierung und Lemmatisierung in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2010 Stefan Langer stefan.langer@cis.uni-muenchen.de Übung: Tokenisierung (5 min) Was ist
MehrWortbildung und Wortbildungswandel
Germanistik Kira Wieler Wortbildung und Wortbildungswandel Studienarbeit Inhaltsverzeichnis 1 Einleitung... 2 2 Wortbildung... 2 2.1 Morphologische Grundbegriffe... 2 2.2 Arten der Wortbildung... 3 2.3
Mehr9. Heuristische Suche
9. Heuristische Suche Prof. Dr. Rudolf Kruse University of Magdeburg Faculty of Computer Science Magdeburg, Germany rudolf.kruse@cs.uni-magdeburg.de S Heuristische Suche Idee: Wir nutzen eine (heuristische)
MehrStudienprojekt TaxoSearch Spezifikation
Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna
MehrEinführung in das Natural Language Toolkit
Einführung in das Natural Language Toolkit Markus Ackermann Abteilung für Automatische Sprachverarbeitung (Universität Leipzig) 11. Mai 2011 Kurzeinführung nützliche
MehrKapitel 5: Syntaxdiagramme und Grammatikregeln
5. Syntaxdiagramme und Grammatikregeln 5-1 Objektorientierte Programmierung (Winter 2010/2011) Kapitel 5: Syntaxdiagramme und Grammatikregeln Syntaxdiagramme Grammatikregeln (kontextfrei) Beispiele: Lexikalische
MehrAlgorithmen und Formale Sprachen
Algorithmen und Formale Sprachen Algorithmen und formale Sprachen Formale Sprachen und Algorithmen Formale Sprachen und formale Algorithmen (formale (Sprachen und Algorithmen)) ((formale Sprachen) und
MehrAlgorithmische Bioinformatik 1
Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen
MehrLateinische Morphologie: Anleitung
Im Folgenden geht es darum, eine knappe Anleitung für die morphologische Analyse einiger einfacher lateinischer Sätze zu geben. Diese folgt den Schritten, die in der ersten Einführung in die Arbeitsweise
MehrEinführung Computerlinguistik. Konstituentensyntax II
Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 Schütze & Zangenfeind: Konstituentensyntax
MehrSpezielle Themen der KI. NLP Natural Language Processing. Sprachverstehen
Spezielle Themen der KI NLP Natural Language Processing Sprachverstehen NLP - Verarbeitungsstufen des Sprachverstehen 2 Phonologie und Phonetik Phonologie Lautlehre oder Sprachgebilde-Lautlehre untersucht
MehrAlgorithmische Bioinformatik 1
Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises
MehrComputerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrAlgorithmen und Datenstrukturen II
Algorithmen und Datenstrukturen II Algorithmen zur Textverarbeitung III: D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg Sommer 2009,
MehrUE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1. Übung 2. Spezifikation Schrittweise Verfeinerung
UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1 Übung 2 Spezifikation Schrittweise Verfeinerung Institut für Pervasive Computing Johannes Kepler Universität Linz Altenberger Straße 69,
MehrHidden-Markov-Modelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene
MehrEinführung in die Programmiertechnik
Einführung in die Programmiertechnik Formale Beschreibung von Programmiersprachen Lexikalische Regeln Definition von Wörtern (Lexem, Token) Gruppierung von Zeichen Lexikalische Kategorien: Klassen ähnlicher
MehrLernmodul 7 Algorithmus von Dijkstra
Folie 1 von 30 Lernmodul 7 Algorithmus von Dijkstra Quelle: http://www.map24.de Folie 2 von 30 Algorithmus von Dijkstra Übersicht Kürzester Weg von A nach B in einem Graphen Problemstellung: Suche einer
MehrSprachsynthese: Textnormalisierung
Sprachsynthese: (Änderungen von F. Schiel 2016) Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu schiel@phonetik.uni-muenchen.de 24. Oktober 2016 Inhalt = Vorverarbeitung
MehrKontrastive Linguistik und Lexikographie XII
Computer und zweisprachiges Wörterbuch moderne Lexikographie - intensive Verwendung der Elektronischen Datenverarbeitung (EDV) elektronische Wörterbücher (ewb) Bestimmung: z.t. wie bei Printwörterbüchern,
MehrAlgorithmische Bioinformatik 1
Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen
MehrDer Viterbi Algorithmus
M. 23.Juli.2007 Gliederung 1 2 3 Erfinder Andrew J. Viterbi 1967 zur Dekodierung von Faltungscodes entwickelt Auf Basis von entwickelt Erfinder Andrew J. Viterbi 1967 zur Dekodierung von Faltungscodes
MehrWas ist ein Wort? Morphologie I Einf. in die Linguistik
Morphologie I Einf. in die Linguistik Was ist ein Wort? Ich will Rad fahren Ich will radfahren Ich will Räder fahren *Ich will räderfahren 1 Wenn es flektiert ist, ist es ein Wort. (und wenn es keine sichtbare
MehrEinleitung. Kapitel 1
Kapitel 1 Einleitung In diesem Abschnitt geben wir einen kurzen Überblick über den Inhalt der Vorlesung. Wir werden kurz die wesentlichen Probleme erläutern, die wir ansprechen wollen. Wir werden auch
MehrInstallation und Benutzung. LangCorr ApS Erritsoegaardsvej 11 DK 7000 Fredericia Denmark
Installation und Benutzung Herzlich Willkommen zu Language Corrector! Language Corrector herunterladen: Auf unserer Seite www.langcorr.com finden Sie unten, Mitte links, den Link zu LanguageCorrector.
MehrInhaltsverzeichnis. Abkürzungen... 9 Niveaustufentests Tipps & Tricks Auf einen Blick Auf einen Blick Inhaltsverzeichnis
Inhaltsverzeichnis Inhaltsverzeichnis Abkürzungen... 9 Niveaustufentests... 10 Tipps & Tricks... 18 1 Der Artikel... 25 1.1 Der bestimmte Artikel... 25 1.2 Der unbestimmte Artikel... 27 2 Das Substantiv...
MehrKanditatenkolloqium Syntax - AG
Kanditatenkolloqium Syntax - AG 5 28.11.2017 Aufgabe C1) Erläutern bzw. diskutieren Sie die Originaltext-Schreibungen aufwändig (Z.13), zu Lasten (Z. 16), die McDonald s Entscheidung (Z. 25) und gentechnik
MehrObjektorientierte Programmierung. Kapitel 3: Syntaxdiagramme
Stefan Brass: OOP (Java), 3. 1/31 Objektorientierte Programmierung Kapitel 3: Stefan Brass Martin-Luther-Universität Halle-Wittenberg Wintersemester 2014/15 http://www.informatik.uni-halle.de/ brass/oop14/
Mehr8. A & D - Heapsort. Werden sehen, wie wir durch geschicktes Organsieren von Daten effiziente Algorithmen entwerfen können.
8. A & D - Heapsort Werden sehen, wie wir durch geschicktes Organsieren von Daten effiziente Algorithmen entwerfen können. Genauer werden wir immer wieder benötigte Operationen durch Datenstrukturen unterstützen.
MehrPÄDAGOGISCHE FAKULTÄT. Einführung in die Morphologie der deutschen Sprache
MASARYK - UNIVERSITÄT IN BRNO PÄDAGOGISCHE FAKULTÄT Lehrstuhl für deutsche Sprache und Literatur Einführung in die Morphologie der deutschen Sprache Studienmaterial für die Lehramtstudenten PhDr. Olga
MehrKanditatenkolloqium Syntax - AG
Kanditatenkolloqium Syntax - AG 5 27.11.2017 Aufgabe C1) Erläutern bzw. diskutieren Sie die Originaltext-Schreibungen aufwändig (Z.13), zu Lasten (Z. 16), die McDonald s Entscheidung (Z. 25) und gentechnik
MehrInverted Files for Text Search Engines
Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung
MehrKontextfreie Grammatiken
Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische
Mehr5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)?
5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)? Ladefaktor: α, n aktuelle Anzahl gespeicherter Werte m Tabellengröße. Einfacher Ansatz: rehash() a z c h s r b s h a z Wenn
MehrWirtschaftsinformatik (PWIN) 5. Mentorium. Wirtschaftsinformatik (PWIN), SS2010, Professur für Mobile Business & Multilateral Security 1
Wirtschaftsinformatik (PWIN) 5. Mentorium Algorithmen & XML Wirtschaftsinformatik (PWIN), SS2010, Professur für Mobile Business & Multilateral Security 1 Was ist ein Algorithmus? Präzise formulierte Verarbeitungsvorschrift
MehrEinführung. (Compiler) Prof. Dr. Oliver Braun. Letzte Änderung: :49. Einführung 1/26
Einführung (Compiler) Prof. Dr. Oliver Braun Letzte Änderung: 10.05.2017 15:49 Einführung 1/26 Ein Compiler ist ein Computerprogramm das ein Programm geschrieben in einer Sprache in ein Programm übersetzt
MehrKapitel 18 Fehlertolerantes Retrieval
Kapitel 18 Fehlertolerantes Retrieval HHU Düsseldorf, WS 2008/09 Information Retrieval 272 Eingabefehler in den Dokumenten in den Suchanfragen Formen Leerzeichenfehler ("...ofthe..."; "th_ebook") Fehler
MehrKAPITEL I EINLEITUNG
KAPITEL I EINLEITUNG A. Der Hintergrund Die Wortklasse oder part of speech hat verschiedene Merkmale. Nach dem traditionellen System werden die deutschen Wortklassen in zehn Klassen unterteilt (Gross,
MehrEinführung in die Computerlinguistik. Morphologie III
Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung
MehrTeil 111. Chart-Parsing
Teil 111 Chart-Parsing 102 Die im ersten Teil des Buches behandelten einfachen Parsingalgorithmen sind, anders als die meisten vor allem im Compilerbau verwendeten Algorithmen (z.b. die LLoder LR-Parsingalgorithmen),
MehrTU München. Hauptseminar: WS 2002 / Einführung in Suffix - Bäume
TU München Hauptseminar: WS 2002 / 2003 Einführung in Suffix - Bäume Bearbeiterin: Shasha Meng Betreuerin: Barbara König Inhalt 1. Einleitung 1.1 Motivation 1.2 Eine kurze Geschichte 2. Tries 2.1 Basisdefinition
MehrEinführung in die Linguistik. Morphologie: Lösung
Einführung in die Linguistik WS05 Morphologie: Lösung Aufgabe 1 Welche Morpheme lassen sich in den folgenden Worten identifzieren und welche Bedeutung haben sie? Unterscheiden Sie zwischen: Flexion (Präfix,
MehrWMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
MehrEarley Parsing. Parsing - WS 2012 / 2013 Lisa Orszullok & Anika Stallmann
Earley Parsing Parsing - WS 2012 / 2013 Lisa Orszullok & Anika Stallmann 12.12.2012 Agenda Basics Komponenten Earley Parsing - Recognizer Earley Parsing - Parser Vor- und Nachteile Parsing WS 2012/2013
MehrPlank, WS 03/04, EinfLing, M&S 4b 1 Morphologische Analyse:
Plank, WS 03/04, EinfLing, M&S 4b 1 Morphologische Analyse: Segmentieren in Morphe (gegebenenfalls) Zusammenfassen von Morphen als Realisierungen eines Morphems Erfassen von Allomorphie-Beziehungen (Art
MehrInformationsextraktion
Informationsextraktion Bestimmte Anwendungen bei der semantischen Verarbeitung erfordern keine tiefe linguistische Analyse mit exakter Disambiguierung (= eine einzige und korrekte Lesart). Hierzu gehört
MehrGrundkurs Linguistik - Morphologie
Grundkurs Linguistik - Jens Fleischhauer fleischhauer@phil.uni-duesseldorf.de Heinrich-Heine Universität Düsseldorf; Abteilung für Allgemeine Sprachwissenschaft 10.11.2016; WS 2016/2017 1 / 21 Jens Fleischhauer
Mehr