Computerlinguistik: Ein Überblick

Größe: px
Ab Seite anzeigen:

Download "Computerlinguistik: Ein Überblick"

Transkript

1

2

3 Einleitung: Was ist Computerlinguistik?

4 Was ist Computerlinguistik? Es gibt verschiedene Definitionen davon, was Computerlinguistik ist; folgende ist die für uns maßgebliche: Computerlinguistik ist alles, was darauf hinarbeitet, dass der Computer Sprache versteht, bzw. sprachliche Kompetenz hat. Das läßt aber noch viele Fragen offen: denn was heißt verstehen? Es gibt Programme, die Übersetzungen von einer Sprache in eine andere ausführen, aber sie verstehen nichts von dem, was sie übersetzen.

5 Was ist Computerlinguistik? Deswegen ist es besser zu sagen, dass die Computerlinguistik darauf hinarbeitet, Programme mit linguistischen Kompetenzen zu erstellen. Vieles von dem, was Computerlinguisten machen, hat jedoch keine unmittelbare Anwendung, sondern geschieht nur im Hinblick auf evtl. zukünftige Anwendugen: das vollständige Verstehen von Sprache durch den Computer ist momentan noch eine vollständige Utopie! Insofern gibt es durchaus theoretische und praktische Computerlinguistik.

6 Was ist Computerlinguistik? Allerdings kann man CL nicht als Teilgebiet der Linguistik auffassen wie Phonetik, Morphologie, Syntax etc. Vielmehr gibt es zu (fast) allen Teilfeldern der Linguistik ein zugehöriges Teilfeld der CL: Darüber hinaus gibt es noch genuin computerlinguistische Felder. die keinem traditionellen linguistischen Teilgebiet entsprechen.

7 Was ist Computerlinguistik? So gibt es etwa: Computationelle Phonetik im Sinne von Spracherkennung und Sprachgenerierung (alias text-to-speech), die sich damit beschäftigt, aus Wortformen die Morphologische Information zu extrahieren. Das ist insbesondere wichtig an der Schittstelle zur Syntax und Phonologie Syntax: hier ist besonders Parsing hervorzuheben, das ein wichtiges Teilgebiet der CL ist. Dabei geht es darum, einem Satz die korrekte strukturelle Beschreibung zuzuweisen.

8 Was ist Computerlinguistik? Computationelle Semantik gibt es ebenso: hier geht es v.a. darum, Inferenzen effektiv zu berechnen, eine Frage, um die sich Semantiker selten kümmern. Die Pragmatik spielt in der CL noch keine Rolle, aber das kann sich ändern wenn Dialogsysteme ausgefeilter werden.

9 Was ist Computerlinguistik? Es gibt aber auch eine Reihe genuin computerlinguistischer Felder, die keinem linguistischen Teilgebiet entsprechen: Maschinelle Übersetzung ist ein wichtiges und sehr bekanntes Teilgebiet Dialogsysteme, die sich mit Menschen unterhalten können und Informationen verstehen und weiterleiten, sind ebenfalls ein wichtiges Thema. Solche Systeme sind hochkomplex und verlange viele Module. Daher funktionieren sie nur für sehr beschränkte Domänen, wie Wetter, medizinische Vordiagnose, Rezeption etc.

10 Was ist Computerlinguistik? Informationsextraktion/Textzusammenfassung befassen sich damit, aus langen Texten die wesentlichen Informationen für Nutzer kurz darzustellen. Wichtig ist hierbei dass diese Systeme keinerlei Verständnis für die Text haben; sie arbeiten allein auf der Basis statistischer Regelmäßigkeiten. Es gibt noch viele weitere Anwendungen; das hier ist nur ein grober, und auch von dem werden wir nur Ausschnitte sehr oberflächlich betrachten.

11 Was ist Computerlinguistik? Dementsprechend gliedert sich diese Präsentation in 1. Einen Teil, der zu den linguistischen Kernbereichen das computerlinguistische Pendant vorstellt, 2. und einen Teil, in dem eine genuin computerlinguistische Anwendung skizziert wird, nämlich die Maschinelle Übersetzung.

12 Computerlinguistik und Phonetik

13 Spracherkennung & Sprachgenerierung Auf dem Gebiet der computationellen Phonetik unterscheidet man 2 große Anwendungsgebiete: die Spracherkennung und die Sprachgenerierung. Die beiden haben erstaunlich wenig miteinander zu tun! Beide umfassen Bereiche, die eher der Ingenieurswissenschaft und Physik zugehören als der CL, wie etwa Spektralanalyse und Fourier-Transformation. In Düsseldorf gibt es meines Wissens niemanden, der sich damit beschäftigt

14

15 In normalen Grammatiken ist die lexikalische Ausgabe einer Regel nicht ein Wort wie sondern so etwas wie den Männern N + PL + Dat d.h. ein beliebiges Nomen im Dativ Plural. Das spart uns viele unnötige Regeln sonst bräuchte wir für jedes Nomen, jeden Kasus etc. eigene Regeln. Es ist dann Aufgabe der Morphologie, zu bestimmen, wie das Wort letzlich realisiert wird.

16 Computationellen Morphologie Nehmen wir an, wir haben eine Programm, das uns sagt ob ein Satz gutes Deutsch ist, z.b. (1) Er versteht sich gut mit Männern. Wir können nicht unmittelbar unsere syntaktischen Regeln darauf anwenden: Wir müssen zunächst part-of-speech taggen, d.h. die Worte durch ihre morphologische Information ersetzen! Das ist eine typische Aufgabe der Computationellen Morphologie.

17 Morphologische Lexika Man macht das mittels eines morphologischen Lexikons. Das sieht etwas anders aus als gewöhnliche Lexika: Ein morphologisches Lexikon ist eine Menge M von Paaren (anders gesagt eine Relation) der Form (2) a. (Männern, Mann.N+PL+Dat) b. (Mann, Mann.N+SG+Nom) c. (Mann, Mann.N+SG+Dat) d....

18 Morphologische Lexika Hier liefert uns die linke Seite morphologische Realisierung, während die rechte Seite uns 1. den Stamm 2. die Kategorie 3. die Inflektionsmerkmale liefert. Wenn wir mittels dieser Relation jedes Wort des Satzes mit seiner morphologischen Analyse ersetzt haben, dann können wir seine syntaktische Wohlgeformtheit analysieren.

19 Morphologische Lexika: Ambiguität Hier gibt es ein großes Problem: es gibt also viele Möglichkeiten, dasselbe Wort morphologisch zu analysieren. Z.B.: (3) a. (Mann, Mann.N+Mask+SG+Nom) b. (Mann, Mann.N+SG+Dat) c. (Mann, Mann.N+SG+Akk) d....

20 Morphologische Lexika: Ambiguität Noch viel schlimmer ist es bei Worten wie der: (4) a. (der, der.det.n+mask+sg+nom) b. (der, der.det+fem+sg+gen) c. (der, der.det+mask+pl+dat) d. (der, der.relpron+mask+sg+nom) e.... Es gibt also nicht nur verschiedene Kasus und Numeri, sondern auch verschiedene Genera und sogar Wortarten für ein und dasselbe Wort!

21 Part-of-speech-tagging Diese Tatsache führt dazu, dass part-of-speech-tagging eine wichtige und interessante Aufgabe ist. Die Aufgabe stellt sich wie folgt: Gegeben einen (deutschen) Satz S, wie lässt sich jedes Wort in S so analysieren, dass die Analyse im Gesamtsatz einen Sinn ergibt? Z.B. (5) Der Hund der Verkäuferin beißt

22 Part-of-speech-tagging (6) Der Hund der Verkäuferin beißt Eine mögliche Tag-Sequenz wäre: Der Hund der Verkäuferin beißt der.det+mask+sg+nom Hund.N+Mask+Sg.Nom der.det+fem+sg+gen Verkäuferin.N+Fem+Sg+Gen beißen.v+3p+sg+präs+akt

23 Part-of-speech-tagging Eine andere mögliche Tag-Sequenz wäre: Der Hund der Verkäuferin beißt der.relpron+fem+pl+gen Hund.N+Mask+Sg+Dat der.det+mask+sg+nom Verkäuferin.N+Fem+Sg+Nom beißen.v+3p+sg+präs+akt Das ist aber offensichtlich fehlerhaft; es ist also alles andere als einfach, einen ganzen Satz morphologisch richtig zu analysieren!

24 Hidden-Markov-Modelle Man löst dieses Problem mit sogenannten Hidden-Markov-Modellen (HMMs). Vereinfacht gesagt hat so ein Modell zwei bedingte Wahrscheinlichkeitsverteilungen; Eine bedingte Wahrscheinlichkeitsverteilung P(A B) sagt uns die Wahrscheinlichkeit, dass etwas der Fall, gegeben wir wissen das etwas anderes der Fall ist z.b. die Wahrscheinlichkeit, dass Sie einen Abschluss bekommen, gegeben dass Sie Linguistik studieren.

25 Hidden-Markov-Modelle Sei w ein Wort, w.morph eine morphologische Analyse. 1. P(w.MORPH w) gibt eine Wahrscheinlichkeit, dass ein Wort auf eine gewisse Art morphologisch analysiert wird 2. P(w.MORPH w.morph ) eine Wahrscheinlichkeit, dass w.morph auf w.morph folgt Für 1.: P(der.Det+Mask+Sg.Nom der)> P(der.Det+Fem+Pl+Gen der). (das reflektiert dass z.b. der Hund häufiger ist als der Frauen ) Für 2.: P( Hund.N+Mask+Sg.Nom der.det+mask+sg+nom)> P( Hund.N+Mask+Sg.Nom der.det+fem+pl+gen)

26 Hidden-Markov-Modelle Wir suchen nun die Abfolge von tags, die die Gesamtwahrscheinlichkeit von beiden Funktionen und gegeben den Eingabesatz maximieren. Das geht recht flott, da es hierfür bereits gute Algorithmen gibt (Viterbi Algorithmus). Das ist natürlich nur ein sehr einfaches Anwendungsbeispiel.

27 Syntax in der Computerlinguistik

28 Grammatikimplementierung Es gibt in der Linguistik vielerlei (syntaktische) Grammatiktheorien. Die ernsthafteren davon haben den Anspruch, dass sie eine Sprache (oder ein Fragment davon) vollständig und eindeutig beschreiben. Für uns bedeutet das: die syntaktische Beschreibung lässt sich so implementieren, dass auch ein Computer entscheiden kann, was ein wohlgeformeter Satz meiner Sprache (bzw. des Fragments) ist und was nicht.

29 Grammatikimplementierung Das führt uns in das Feld der Grammatikimplementierung, das momentan noch keine breite Anwendung hat, aber dennoch sehr wichtig in der CL ist. Das bedeutet einfach, man programmiert eine Grammatik, die es dem Computer erlaubt, wohlgeformte (d.h. grammatische) Sätze zu erkennen. Der kanonische Ansatz für solche Grammatiken basiert auf sog. kontext-freien Grammatiken (CFG),

30 Kontext-freie Grammatiken CFG sind (leicht vereinfacht) Grammatiken mit Regeln der Form (7) N M O und (8) N a wobei M, N, O sog. Nichtterminale sind, und a ein Terminal. Nichtterminale werden erweitert, bis nur noch Terminal übrigbleiben; dass sind dann die Sätze, die die Grammatik generiert.

31 Kontext-freie Grammatiken Die Grammatiken heißen kontext-frei, weil die möglichen Erweiterungen eines Nichtterminals unabhängig von seinem Kontext ist. Die Ableitung eines Satzes in einer CFT kann man daher als Baum auffassen: S NP VP Det N ÐÙ Ø Ö À

32 Parsing Ein wichtiges Problem dabei ist folgendes: gegeben eine Grammatik der Form S N M M Katze N N Hund und ein Satz (9) Hund Katze Hund ist es keinesfalls trivial zu bestimmen, ob. 1. die Grammatik den Satz generiert, und 2. welche Ableitungsbäume sie hat.

33 Parsing Dieses zu beantworten nennt man Parsing; wir nehmen eine Grammatik, einen Satz, und versuchen den Satz mit der Grammatik zu parsen. Man kann Parsing also verstehen als die Zuweisung einer/aller strukturellen Beschreibungen eines Satzes nach der Grammatik wenn es denn eine solche gibt, d.h. der Satz wohlgeformt ist!

34 Parsing Parsing fördert oft Überraschendes zutage: Wenn man eine große CFG für das Deutsche nimmt und einen Standardparser wie NEGRA, einen Satz parsen läßt wie (10) Dieser Satz ist schwer zu parsen. dann bekommen wir bis in die hunderte von verschiedene Ableitungen (siehe Bsp.)!

35 Ambiguität als Problem Das liegt daran, dass große Grammatiken eine Vielzahl von Regeln haben aber diejenigen, die sie schreiben verlieren schnell den darüber, wie komplex die möglichen Interaktionen sind! Das bringt uns auf das Problem der Ambiguität: wir möchten normalerweise nicht alle Parse haben, sondern nur den plausibelsten.

36 Ambiguität als Problem Folgendes Beispiel: (11) a. Time flies like an arrow. b. Die Zeit fliegt wie ein Pfeil. c. Zeitfliegen mögen einen Pfeil. Die beiden Übersetzungen entsprechen zwei verschiedenen Analysen, der englische Satz ist also strukturell ambig.

37 Ambiguität als Problem Dennoch ist die eine Analyse viel plausibler als die andere! Wir haben also ein ähnliches Problem wie beim POS-tagging: wir möchten von allen Parsen den/die Plausibelsten haben. Die Lösung ist ebenfalls ähnlich: man nimmt zu jeder Regel eine Wahrscheinlichkeit hinzu, und wählt am Ende die Ableitung, die insgesamt die höchste Wahrscheinlichkeit aufweist (=Produkt aller Regelwahrscheinlichkeiten).

38 Linguistisch motivierte Grammatiken Während CFG der Standard in der CL sind, gehen fast alle linguistischen Theorien davon aus, dass diese unzureichend sind. Wir haben also mächtigere Erweiterungen; die große Frage ist: Eignen sich diese Erweiterungen zur Implementierung (d.h. sind sie ausreichend wohldefiniert)? Gibt es dafür effiziente Parsingalgorithmen? Um die zweite Frage zu verstehen, muss man wissen das allgemein gilt: je komplexer die Grammatik, desto schwieriger ist das Parsing.

39 Linguistisch motivierte Grammatiken Beide Fragen haben übrigens auch eine linguistische Relevanz: denn (nach Annahme der Grammatiktheorie) nutzen Menschen eben diese Grammatiken, um Sätze zu verstehen, d.h. insbesondere zu parsen! Wenn diese Grammatiken es also Menschen erlauben, effizient Sätze zu verstehen, dann sollten sie es auch dem Computer erlauben.

40 Linguistisch motivierte Grammatiken Es gibt also ein fruchtbares Wechselspiel zwischen Computerlinguistik und Linguistik im Feld der Syntax; das ist insbesondere ein Forschungsschwerpunkt der HHU: Tree-Adjoining Grammars und Multiple Kontext-freie Grammatiken, beides Erweiterungen von CFG, die sowohl in Linguistik als auch in CL eine wichtige Rolle spielen!

41 Computationelle Semantik

42 Computationelle Semantik Es ist ein altes philosophisches Problem und nach wie vor völlig unklar was eine Bedeutung wirklich ist. Allerdings ist mittlerweile recht klar, was eine Bedeutung tun soll, und das sind v.a. zwei Dinge: 1. sie soll Wahrheitbedingungen überpüfbar machen; d.h. gegeben einen Sachverhalt sollen wir entscheiden können, ob die Bedeutung zutrifft oder nicht; 2. sie soll Inferenzen ermöglichen; d.h. wenn die Wahrheit von B 1 die Wahrheit von B 2 impliziert, dann sollte es möglich sein, aus B 1, B 2 zu errechnen.

43 Computationelle Semantik Während in der linguistischen Semantik (momentan) der Fokus sich sehr auf Punkt 1 verengt, liegt in der computationellen Semantik der Fokus auf Punkt 2. Ein anderer Punkt der Computationellen Semantik ist der Fokus auf der Berechenbarkeit der Bedeutung, der sonst auch Vielfach vernachlässigt wird.

44 Ein Beispiel: Textuelle Inferenz Eine wichtige Problem der CL ist die sogenannte textuelle Inferenz, also die Frage ob aus einem Text eine gewisse Aussage folgt, z.b.: Gestern habe ich ein Huhn und eine Packung Eier gekauft. Mit den Eiern habe ich einen Kuchen gebacken. Impliziert das: Ich habe ein Huhn? Ich habe Eier? Solche Systeme nutzen selten elaborierte semantische Repräsentationen, funktionieren aber gut auf Basis von oberflächlichen Methoden!

45 Noch ein Beispiel: Distributionelle Semantik Ein großes Problem der klassischen Semantik ist die lexikalische Semantik. Während die logische Semantik die Bedeutung von z.b. Hund als atomar auffasst, ist das natürlich inadäquat: Dackel impliziert Hund impliziert Säugetier. Umgekehrt gibt es in der lexikalischen Semantik Analysen zur Bedeutung einzelner Worte, die hochkomplex sind. Dass es solche Analysen für einem signifikanten Teil des deutschen/englischen Lexikons gibt, und diese sich auf die gewünschte Art zusammenfügen, schein völlig utopisch.

46 Distributionelle Semantik: Wortbedeutungen als Vektoren Die distributionelle Semantik erzeugt automatisch semantische Repräsentationen von lexikalischen Objekten. Diese sind zwar theoretisch inadäquat (wie so oft in der CL), aber für viele praktische Zwecke ausreichend (oder zumindest hilfreich)! Kurz gesagt: in der DS sind Wortbedeutungen Vektoren.

47 Distributionelle Semantik: Wortbedeutungen als Vektoren Zur Erinnerung: ein (n-dimensionaler) Vektor von reellen Zahlen ist ein Tupel (r 1,..., r n ), wobei r 1,.., r n R. Die Idee der distributionellen Semantik ist nun folgende: 1. Die Bedeutung eines Wortes läßt sich in vielen Fällen gut approximieren durch die (Häufigkeit der) Worte, mit denen es zusammen im Satz auftritt (sog. Ko-Okkurrenzen). 2. Die Ko-Okkurrenzen eines Wortes lassen sich wiederum als ein L -dimensionaler Vektor auffassen, wobei L die Größe unseres Lexikons ist.

48 Distributionelle Semantik: Wortbedeutungen als Vektoren Den Vektor eines Wortes lässt sich sehr einfach automatisch erzeugen: sei T ein Text, L das zugehörige Lexikon (einfach die Menge der Worte, die in T vorkommen); mit L bezeichnen wir die Größe des Lexikons. Wir nehmen nun eine (beliebige) Funktion f : {1,..., L } L, die eine Bijektion, also 1-zu-1 ist.

49 Distributionelle Semantik: Wortbedeutungen als Vektoren Sei w ein Wort unseres Lexikons. Nun ist φ(w) = (n 1,..., n L ), genau dann wenn (für 1 i L ) w n i -mal zusammen mit dem Wort f (i) im selben Satz auftritt in T. Z.B.: f (Hund) = 5; Hund kommt 18-mal im selben Satz wie Katze vor. Also: φ(katze) = (n 1,.., n 4, 18, n 6,...).

50 Distributionelle Semantik: Wortbedeutungen als Vektoren 1. Solche Vektoren kann man problemlos automatisch erstellen, auch für sehr große Texte; 2. durch schiere Größe geben sie uns ein relativ verläßliches Kriterium für semantische Verwandtschaft: 3. wenn zwei Vektoren im L -dimensionalen Raum grob in dieselbe Richtung zeigen, dann ist es fast sicher dass zwischen den beiden Worten eine semantische Verwandtschaft besteht. 4. mit solchen Vektoren kann man auch gut rechnen : man kann sie z.b. addieren, Skalarprodukt bestimmen, Richtung bestimmen und komplexere Operationen ausführen.

51 Distributionelle Semantik: Beschränkungen Distributionelle Semantik kann auch für Inferenzen benutzt werden das klappt für viele Bereiche erstaunlich gut! Natürlich hat diese Methode ihre Beschränkungen. Man wird auf diese Weise niemals die Bedeutung logischer Worte wie nicht, ein etc. darstellen können. Deswegen aktuelle Forschung in hybriden Methoden, wie sich distributionelle Semantik mit klassischer logischer Semantik verbinden lässt. dennoch ist es erstaunlich, was sich mit diesen simplen Methoden alles erreichen lässt!

52 Nicht-linguistische Felder und Methoden

53 Eine allgemeine Regel in der CL Für rein Anwendungsorierntiert CL hat es sich folgende Regel etabliert: Linguistische, regelbasierte Systeme verlangen sehr viel Arbeit, um mit sehr einfachen, rein statistisch basierten Systemen mithalten zu können. Das hat dazu geführt, dass in der anwendungsorientierten CL linguistisch basierte Methoden eine geringe Bedeutung haben; erst in jüngster Zeit erlangen die letzteren wieder einige Bedeutung im Rahmen hybrider Systeme; diese werden wir hier aber nicht behandeln.

54 Maschinelle Übersetzung Der Aufstieg dieser statistischen Methoden fällt zusammen mit dem Aufstieg des maschinellen Lernens; erfolgreiche Modelle zeichnen sich v.a. dadurch aus, dass sie sich automatisch erstellen lassen, also wenig Handarbeit erfordern. Ein Musterbeispiel für den Erfolg einfacher Methoden sind die ersten funktionierenden Übersetzungssysteme (die sog. IBM-Modelle). Wir betrachten zunächst das Modell, danach seine automatische Induktion.

55 Das Outline Übersetzungsmodell IBM I IBM I hat drei Module: 1. ein Übersetzungslexikon, in dem jede Übersetzung (z.b. englisches Wort - deutsches Wort) eine gewisse Wahrscheinlichkeit P(d e) hat 2. eine Alinierungsfunktion, in der jede Alinierung zweier Sätze eine gewisse Wahrscheinlichkeit erhält 3. ein Sprachmodell, dass jedem (deutschen) Ausgabesatz eine Wahrscheinlichkeit P( d) zuweist

56 Das Outline Übersetzungsmodell IBM I Die Alinierung bestimmt, welches Wort der Eingabe als welches Wort der Ausgabe übersetzt wird. Am Ende nehmen wir die Ausgabe, die (für eine Eingabe) die höchste Wahrscheinlichkeit hat, d.h. Wortübersetzungen mal Alinierung mal Sprachmodell-Wahrscheinlichkeit Soweit sogut - aber woher kommen die Wahrscheinlichkeiten?

57 Der EM-Algorithmus Alles was wir brauchen (und haben) ist ein Text, der 1. in zwei Sprachen abgefasst ist, und 2. für jeden Satz der einen Sprache klar ist, mit welchem Satz der anderen Sprache er übersetzt wird: (siehe Bsp.!)

58 Der EM-Algorithmus Was wir daraus schließen können: Wenn w 1 (englisches Wort) im englischen Satz vorkommt, dann kommt v 1 (deutsches Wort) n mal in einem zugehörigen deutschen Satz vor, z.b. (house, Haus, 18); (house, Auto, 3); etc. Diese ersten Zahlen erlauben es uns eine Wortalinierung zu machen: nämlich so dass die Worte mit maximalen Ko-Okkurrenzen aliniert sind!

59 Der EM-Algorithmus Jetzt kommt der Trick: wir nutzen diese Alinierungen, um neue, verfeinerte Ko-Okkurrenz-Wahrscheinlichkeiten zu schätzen, und alinieren Worte neu nach diesen neuen, verfeinerten Wahrscheinlichkeiten. Damit schätzen wir wieder neue Wahrscheinlichkeiten etc. Der Schritt von Häufigkeiten zu Wahrscheinlichkeiten ist hier implizit, aber kein Problem

60 Der EM-Algorithmus Am Ende haben wir erstaunlich präzise Wortalinierungen, und dementsprechend gute Wahrscheinlichkeiten sowohl für Wortübersetzungen als auch für Alinierungen! Dieser sogenannte EM-Algorithmus ist sehr wichtig im maschinellen Lernen.

61 Sprachmodelle Als Sprachmodell bezeichnet man im Prinzip ein beliebiges Modell das jedem Satz einer Sprache eine Wahrscheinlichkeit zuweist. Die typischen Sprachmodelle sind sogenannte n-gram Modelle. Ein n-gram (n ist eine Variable für eine beliebige natürliche Zahl, üblicherweise zwischen 2 und 5) ist einfach eine Folge von n-wörtern. Ein n-gram Modell weist (vereinfacht gesprochen) jedem n-gram eine Wahrscheinlichkeit zu; die Wahrscheinlichkeit eines Satzes errechnet sich als das Produkt seiner n-gram Wahrscheinlichkeiten.

62 n-gram Modelle Z.B. sei n = 3. Dann ist P(Der Hund sucht die Katze) = P(Der Hund sucht) P(Hund sucht die) P(sucht die Katze)

63 n-gram Modelle n-gram Modelle lassen sich sowohl sehr einfach automatisch induzieren (alles was man braucht ist Text in einer Sprache), als auch sehr einfach& schnell berechnen (man braucht keine komplizierten Algorithmen. Dennoch gibt es bis heute keine Modelle, die ihnen als Sprachmodelle ernsthaft Konkurrenz machen! Insbesondere linguistisch motivierte Modelle schneiden deutlich schlechter ab (sind v.a. weniger robust!)

64 Die Zukunft und Bedeutung der CL (subjektiv)

65 Ein Ausblick auf die Zukunft der CL Im Rahmen der wachsenden Bedeutung der künstlichen Intelligenz ( Industrie 4.0 ) ist zu erwarten, dass auch der Computerlinguistik eine wachsende Bedeutung zukommt. Es ist abzusehen, dass die Methoden des maschinellen Lernens von enormer Bedeutung bleiben. Hier gibt es insbesondere große Entwicklungen und gemeinsame Schnittstellen mit der künstlichen Intelligenz Andererseits ist zu beobachten, dass zunehmend linguistische Methoden in den Kontext des maschinellen Lernens eingebettet werden.

66 Bedeutung der Computerlinguistik Es ist aber auch so, dass innerhalb der Linguistik die CL eine wachsende Bedeutung einnimmt: Erst die CL hat eigentlich gezeigt, wie kompliziert natürliche Sprachen eigentlich sind ernsthafte Grammatiken haben viele tausende Regeln, und Ausnahmen sind damit noch gar nicht behandelt! Nur die CL behandelt (meiner Meinung nach) eigentlich die Frage, wie verschiedene Teilgebiete der Linguistik zusammengehen.

67 Danke für die Aufmerksamkeit!

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch, Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Kontakt: ivana.bt.mk@gmail.com Betreff: EICL Wiederholung Aufgabe 1 Was ist Computerlinguistik? 4 Was ist Computerlinguistik?

Mehr

Kontextfreie Grammatiken

Kontextfreie Grammatiken Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische

Mehr

Syntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M

Syntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M OS Einblicke in die Computerlinguistik basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 22. Mai 2014 Ausgangssituation Tokenisierung und Wortarten-Tagging vollendet

Mehr

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Einführung Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2018 1 / 14 Anwendungen der Computerlinguistik Carstensen et al. (2010); Jurafsky and Martin

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Was ist Computerlinguistik? Definition Anwendungen Fragestellung

Mehr

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Inhaltsverzeichnis. Bibliografische Informationen  digitalisiert durch Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3

Mehr

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Sprache und Modelle SS 2015: Grossmann, Jenko Einleitung Was ist ein Modell? Sprachlich orientierte Modelle Beispiele Wie entstehen Modelle? Zusammenhang Modell

Mehr

Grundlagen der Theoretischen Informatik

Grundlagen der Theoretischen Informatik Grundlagen der Theoretischen Informatik Sommersemester 2015 22.04.2015 Viorica Sofronie-Stokkermans e-mail: sofronie@uni-koblenz.de 1 Bis jetzt 1. Terminologie 2. Endliche Automaten und reguläre Sprachen

Mehr

Diskriminatives syntaktisches Reranking für SMT

Diskriminatives syntaktisches Reranking für SMT Diskriminatives syntaktisches Reranking für SMT Fortgeschrittene Themen der statistischen maschinellen Übersetzung Janina Nikolic 2 Agenda Problem: Ranking des SMT Systems Lösung: Reranking-Modell Nutzung

Mehr

Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I

Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I Vorlesung Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I Bernhard Beckert Institut für Informatik Sommersemester 2007 B. Beckert Grundlagen d. Theoretischen Informatik:

Mehr

Morphologische Merkmale. Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle

Morphologische Merkmale. Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle Morphologische Merkmale Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle Merkmale Das Wort 'Merkmal' ' bedeutet im Prinzip soviel wie 'Eigenschaft'

Mehr

Automatentheorie und formale Sprachen

Automatentheorie und formale Sprachen Automatentheorie und formale Sprachen Wiebke Petersen Wiebke Petersen Automatentheorie und formale Sprachen - WiSe12/13 1 Seminarplan Lektüre: Theoretische Grundlagen der Informatik, Rolf Socher, 2008

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION 1 22.12.09 Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION(IE) 1. Einleitung 2. Ziel der IE 3. Funktionalität eines IE-Systems 4. Beispiel 5. Übung

Mehr

Teil 111. Chart-Parsing

Teil 111. Chart-Parsing Teil 111 Chart-Parsing 102 Die im ersten Teil des Buches behandelten einfachen Parsingalgorithmen sind, anders als die meisten vor allem im Compilerbau verwendeten Algorithmen (z.b. die LLoder LR-Parsingalgorithmen),

Mehr

Projektgruppe. Text Labeling mit Sequenzmodellen

Projektgruppe. Text Labeling mit Sequenzmodellen Projektgruppe Enes Yigitbas Text Labeling mit Sequenzmodellen 4. Juni 2010 Motivation Möglichkeit der effizienten Verarbeitung von riesigen Datenmengen In vielen Bereichen erwünschte automatisierte Aufgabe:

Mehr

Hidden-Markov-Modelle

Hidden-Markov-Modelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene

Mehr

LÖSUNGEN ZU AUFGABE (41)

LÖSUNGEN ZU AUFGABE (41) DGB 40 Universität Athen, WiSe 2012-13 Winfried Lechner Handout #3 LÖSUNGEN ZU AUFGABE (41) 1. WIEDERHOLUNG: PARAPHRASEN, SITUATIONEN UND AMBIGUITÄT Ein Satz Σ ist ambig, wenn Σ mehr als eine Bedeutung

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog

Mehr

Dank. Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I. Reguläre Ausdrücke als Suchmuster für grep

Dank. Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I. Reguläre Ausdrücke als Suchmuster für grep Dank Vorlesung Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I Bernhard Beckert Diese Vorlesungsmaterialien basieren ganz wesentlich auf den Folien zu den Vorlesungen

Mehr

Algorithmen und Formale Sprachen

Algorithmen und Formale Sprachen Algorithmen und Formale Sprachen Algorithmen und formale Sprachen Formale Sprachen und Algorithmen Formale Sprachen und formale Algorithmen (formale (Sprachen und Algorithmen)) ((formale Sprachen) und

Mehr

MODIFIKATIONEN DES TOMITA-PARSERS FÜR ID/LP UND FEATURE GRAMMARS Jens Woch

MODIFIKATIONEN DES TOMITA-PARSERS FÜR ID/LP UND FEATURE GRAMMARS Jens Woch Fachbeiträge MODIFIKATIONEN DES TOMITA-PARSERS FÜR ID/LP UND FEATURE GRAMMARS Jens Woch Abstract: Die Verwendung von ID/LP-Grammatiken und komplexen Symbolen ist bei Flektionsreichen und in der Wortstellung

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Grundkurs Linguistik - Morphologie

Grundkurs Linguistik - Morphologie Grundkurs Linguistik - Jens Fleischhauer fleischhauer@phil.uni-duesseldorf.de Heinrich-Heine Universität Düsseldorf; Abteilung für Allgemeine Sprachwissenschaft 10.11.2016; WS 2016/2017 1 / 21 Jens Fleischhauer

Mehr

Grundlagen der Theoretischen Informatik

Grundlagen der Theoretischen Informatik Grundlagen der Theoretischen Informatik Sommersemester 2016 20.04.2016 Viorica Sofronie-Stokkermans e-mail: sofronie@uni-koblenz.de 1 Bis jetzt 1. Terminologie 2. Endliche Automaten und reguläre Sprachen

Mehr

Einführung in unifikationsbasierte Grammatikformalismen

Einführung in unifikationsbasierte Grammatikformalismen Universität Potsdam Institut für Linguistik Computerlinguistik Einführung in unifikationsbasierte Grammatikformalismen Thomas Hanneforth head: VP form: finite subj: pers: 3 num: pl Merkmalsstrukturen:

Mehr

! Die Idee Kombination von Informatik und einem anderen Fach

! Die Idee Kombination von Informatik und einem anderen Fach Computerlinguistik Integriertes Anwendungsfach im B.Sc.Studiengang Department Informatik / Universität Hamburg! Wie funktioniert das integrierte Anwendungsfach Computerlinguistik (organisatorisch)?! Beziehungen

Mehr

Mathem.Grundlagen der Computerlinguistik I, WS 2004/05, H. Leiß 1

Mathem.Grundlagen der Computerlinguistik I, WS 2004/05, H. Leiß 1 Mathem.Grundlagen der Computerlinguistik I, WS 2004/05, H. Leiß 1 1 Vorbemerkungen Mathematische Begriffe und Argumentationsweisen sind in vielen Fällen nötig, wo man über abstrakte Objekte sprechen und

Mehr

Sprachanalyse. Fachseminar WS 08/09 Dozent: Prof. Dr. Helmut Weber Referentin: Nadia Douiri

Sprachanalyse. Fachseminar WS 08/09 Dozent: Prof. Dr. Helmut Weber Referentin: Nadia Douiri Sprachanalyse WS 08/09 Dozent: Prof. Dr. Helmut Weber Referentin: Inhalt 1. Formale Sprachen 2. Chomsky-Hierarchie 2 FORMALE SPRACHE 1. WAS IST EINE SPRACHE? 2. WIE BESCHREIBT MAN EINE SPRACHE? 3. WAS

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:

Mehr

Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber

Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber Simullda Structured Interlingua MultiLingual Lexical Database Application Sonja Weber 1 Gliederung Background Begriffsklärung Multilinguale Datenbanken WordNet Maschinelle Übersetzung Formale Begriffsanalyse

Mehr

Probabilistische kontextfreie Grammatiken

Probabilistische kontextfreie Grammatiken Mathematische Grundlagen III Probabilistische kontextfreie Grammatiken 14 Juni 2011 1/26 Ambiguität beim Parsing Wörter können verschiedene Bedeutungen haben und mehr als einer Wortkategorien angehören

Mehr

Satz Umstrukturierung für statistisch. Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung

Satz Umstrukturierung für statistisch. Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung Satz Umstrukturierung für statistisch maschinelle Übersetzung Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung Einführung Beschreibung einer

Mehr

Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen -

Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen - Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen - Thies Pfeiffer Technische Fakultät tpfeiffe@techfak.uni-bielefeld.de Vorlesung, Universität Bielefeld, Winter 2012/2013 1 / 1 Exkurs: Formale

Mehr

Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen -

Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen - Algorithmen und Datenstrukturen I - - Thies Pfeiffer Technische Fakultät tpfeiffe@techfak.uni-bielefeld.de Vorlesung, Universität Bielefeld, Winter 2012/2013 1 / 22 Exkurs: Formale Sprachen Im Kapitel

Mehr

Syntax natürlicher Sprachen

Syntax natürlicher Sprachen Syntax natürlicher Sprachen 02: Grammatik und Bäume Martin Schmitt Ludwig-Maximilians-Universität München 25.10.2017 Martin Schmitt (LMU) Syntax natürlicher Sprachen 25.10.2017 1 1 Syntax im NLTK 2 Grammatik

Mehr

8 Fakultät für Philologie

8 Fakultät für Philologie 8 Fakultät für Philologie 8.1 Linguistik 8.1.1 Linguistik, PO 2004 Fach Linguistik (101) Abschluss 2-Fach Bachelor (81) PO-Version 2004 Folgendes ist zurzeit in HISPOS eingerichtet: Modul-Typen: o Nachgewiesene

Mehr

Was ist Statistik? Wozu dienen statistische Methoden?

Was ist Statistik? Wozu dienen statistische Methoden? 25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen

Mehr

Inhalt. 1 Mathematik? 2 PROLOG-1: Aussagen und Mengen. 3 PROLOG-2: Funktionen. 4 PROLOG-3: Zahlenmengen und vollständige Induktion

Inhalt. 1 Mathematik? 2 PROLOG-1: Aussagen und Mengen. 3 PROLOG-2: Funktionen. 4 PROLOG-3: Zahlenmengen und vollständige Induktion Inhalt 1 Mathematik? 2 PROLOG-1: Aussagen und Mengen 3 PROLOG-2: Funktionen 4 PROLOG-3: Zahlenmengen und vollständige Induktion 5 PROLOG-4: Ungleichungen Daniel Weller (Inst. f. Diskr. Math.) PROLOG 2013

Mehr

THEORETISCHE INFORMATIK UND LOGIK

THEORETISCHE INFORMATIK UND LOGIK Prädikatenlogik als Universalsprache Die Entwicklung der Logik hat ein zentrales Motiv: Logik als eine universelle, präzise Sprache THEORETISCHE INFORMATIK UND LOGIK 15. Vorlesung: Logisches Schließen

Mehr

Automatisches Verstehen gesprochener Sprache

Automatisches Verstehen gesprochener Sprache Automatisches Verstehen gesprochener Sprache 6. Syntaxanalyse Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Mehr

Theoretische Informatik I

Theoretische Informatik I Theoretische Informatik I Rückblick Theoretische Informatik I 1. Mathematische Methoden 2. Reguläre Sprachen 3. Kontextfreie Sprachen Themen der Theoretischen Informatik I & II Mathematische Methodik in

Mehr

Projektseminar "Texttechnologische Informationsmodellierung"

Projektseminar Texttechnologische Informationsmodellierung Projektseminar "Texttechnologische Informationsmodellierung" Ziel dieser Sitzung Nach dieser Sitzung sollten Sie: Einige standards und projekte vom Namen her kennen Einen Überblick über und einen Eindruck

Mehr

Probabilistic Context Free Grammars, Part II

Probabilistic Context Free Grammars, Part II Probabilistic Context Free Grammars, Part II Prof Dr. Matthew Crocker Universität des Saarlandes 16. Juli 2015 Matthew Crocker (UdS) PCFG II 16. Juli 2015 1 / 25 Themen heute: 1 Wiederholung: PCFG 2 Formeln

Mehr

Kontextfreie Sprachen

Kontextfreie Sprachen Kontextfreie Sprachen Bei regulären (=Typ 3-) Grammatikregeln stehen maximal ein Terminal- und ein Nichtterminalsymbol auf der rechten Seite. Dadurch läßt sich lediglich die Abfolge der Terminalzeichen

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Kontextfreie Sprachen und Pushdown-Automaten Dozentin: Wiebke Petersen WS 2004/2005 Wiebke Petersen Formale Komplexität natürlicher Sprachen WS 03/04 Wiederholung c

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -

Mehr

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von

Mehr

Transkript-Merkmal-Analysen. Leitfaden für den Inhalt von Hausarbeiten und mündlichen Prüfungen

Transkript-Merkmal-Analysen. Leitfaden für den Inhalt von Hausarbeiten und mündlichen Prüfungen Transkript-Merkmal-Analysen Leitfaden für den Inhalt von Hausarbeiten und mündlichen Prüfungen 1. Transkript-/Text-Merkmal-Analyse Am Anfang Ihrer Arbeit sollten Sie eine Transkript-Merkmal-Analyse bzw.

Mehr

Einführung in die Informatik I (autip)

Einführung in die Informatik I (autip) Einführung in die Informatik I (autip) Dr. Stefan Lewandowski Fakultät 5: Informatik, Elektrotechnik und Informationstechnik Abteilung Formale Konzepte Universität Stuttgart 24. Oktober 2007 Was Sie bis

Mehr

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010 Bojan Georgievski Prashanna Thangeswaran David Höfig Einführung Was sind Dialogsysteme? Beispiele von Dialogsystemen Wo werden Dialogsysteme

Mehr

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 -

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 - 1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen I.2. I.2. Grundlagen von von Programmiersprachen. - 1 - 1. Der Begriff Informatik "Informatik" = Kunstwort aus Information und Mathematik

Mehr

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 -

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 - 1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen I.2. I.2. Grundlagen von von Programmiersprachen. - 1 - 1. Der Begriff Informatik "Informatik" = Kunstwort aus Information und Mathematik

Mehr

auf einer Suche basierender problemlösender Agent (Kapitel 3) logischer Planungsagent (Kapitel 10)

auf einer Suche basierender problemlösender Agent (Kapitel 3) logischer Planungsagent (Kapitel 10) 11 Planen Zentrale Fragestellung: Wie kann ein Agent die Struktur eines Problems nutzen, um komplexe Aktionspläne zu konstruieren? Bisher zwei Beispiele für planende Agenten: auf einer Suche basierender

Mehr

Übungsaufgaben. Eine kontextfreie Grammatik lässt sich formal als Quadrupel darstellen: D : der, das N : Hund, Kaninchen V : sieht, beißt

Übungsaufgaben. Eine kontextfreie Grammatik lässt sich formal als Quadrupel darstellen: D : der, das N : Hund, Kaninchen V : sieht, beißt Universität Bielefeld 25. Juni 2006 Fakultät für Linguistik und Literaturwissenschaft Formale Methoden der Linguistik III Veranstalter: Dieter Metzing Sommersemester 2006 Übungsaufgaben 1. (a) Welche Bestandteile

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Merkmalstrukturen und Unifikation Dozentin: Wiebke Petersen WS 2004/2005 Wiebke Petersen Formale Komplexität natürlicher Sprachen WS 03/04 Universität Potsdam Institut

Mehr

Active Hidden Markov Models for Information Extraction

Active Hidden Markov Models for Information Extraction HMMs in der IE p.1/28 Active Hidden Markov Models for Information Extraction Seminar Informationsextraktion im WiSe 2002/2003 Madeleine Theile HMMs in der IE p.2/28 Inhaltsübersicht Ziel formalere Aufgabenbeschreibung

Mehr

Objektorientierte Programmierung (OOP)

Objektorientierte Programmierung (OOP) orientierte Programmierung (OOP) 1. Motivation Die objektorientierte Sichtweise der Welt Als Motivation für die OOP sieht man sich am besten die reale Welt an: Die reale Welt besteht aus "en", z. B.: Gegenstände,

Mehr

Inhalt. " DiaGen Historie und Beschreibung. " Architektur eines DiaGen-Editors. " Hypergraphen. " DiaGen-Editoren Komponenten

Inhalt.  DiaGen Historie und Beschreibung.  Architektur eines DiaGen-Editors.  Hypergraphen.  DiaGen-Editoren Komponenten DIAGEN Sven Goeckels Seminar : Visuelle Sprachen Universität Bremen FB Informatik WS 2001/2002 Inhalt " DiaGen Historie und Beschreibung " " Hypergraphen " DiaGen-Editoren Komponenten? Modeler? Reducer?

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde

Mehr

Einführung in die Computerlinguistik Überblick

Einführung in die Computerlinguistik Überblick Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 Schütze & Zangenfeind: Überblick 1 / 19 Was

Mehr

QUALIA STRUKTUR NACH PUSTEJOVSKY

QUALIA STRUKTUR NACH PUSTEJOVSKY QUALIA STRUKTUR NACH PUSTEJOVSKY Angewandte Linguistische Datenverarbeitung Sprachliche Informationsverarbeitung Universität zu Köln Dozent: Prof. Dr. Jürgen Rolshoven Referentin: Corinna Asselborn 20.01.2014

Mehr

Einführung in die Computerlinguistik Chart-Parsing

Einführung in die Computerlinguistik Chart-Parsing Einführung in die Computerlinguistik Chart-Parsing Dozentin: Wiebke sen 21.12.2009 Wiebke sen Einführung CL (Wie 09/10) 1 P = calls calls Wiebke sen Einführung CL (Wie 09/10) 2 P = calls calls Wiebke sen

Mehr

Inhaltsverzeichnis. Vorwort... 11

Inhaltsverzeichnis. Vorwort... 11 Inhaltsverzeichnis Vorwort... 11 1 Einleitung... 13 1.1 Denken und Sprache als Prozesse der Informationsverarbeitung. 14 1.2 Denken und Sprache in Verbindung mit anderen Prozessen... 17 1.3 Auf der Suche

Mehr

Elementare Wahrscheinlichkeitslehre

Elementare Wahrscheinlichkeitslehre Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?

Mehr

Fuzzy Logic und Wahrscheinlichkeit

Fuzzy Logic und Wahrscheinlichkeit Philosophische Fakultät Institut für Philosophie, Lehrstuhl für Theoretische Philosophie, Holm Bräuer M.A. Fuzzy Logic und Wahrscheinlichkeit Ein Kurzüberblick Was ist Fuzzy Logic? Fuzzy-Logik (englisch:

Mehr

COMPUTERLINGUISTISCHE PROBLEME BEI DER BEARBEITUNG GROSSER TEXTMENGEN

COMPUTERLINGUISTISCHE PROBLEME BEI DER BEARBEITUNG GROSSER TEXTMENGEN FACHBEITRÄGE COMPUTERLINGUISTISCHE PROBLEME BEI DER BEARBEITUNG GROSSER TEXTMENGEN Christoph Schwarz ZT ZTI IINF 323, Siemens AG München Anhand von Beispielen wird aufgezeigt, in welch hohem Maß die computerlinguistische

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen

Mehr

Mathe <> Deutsch. Die 7 verwirrendsten Mathe-Floskeln einfach erklärt! Math-Intuition.de

Mathe <> Deutsch. Die 7 verwirrendsten Mathe-Floskeln einfach erklärt! Math-Intuition.de Mathe Deutsch Die 7 verwirrendsten Mathe-Floskeln einfach erklärt! Inhalt hinreichend & notwendig kanonisch wohldefiniert beliebig paarweise trivial o.b.d.a & o.e. hinreichend & notwendig Bei jeder

Mehr

Psycholinguistik. p. 1/28

Psycholinguistik. p. 1/28 Psycholinguistik p. 1/28 Psycholinguistik: Allgemeine Fragen Wie und wo wird die Sprache im Gehirn verarbeitet? Sprachentwicklung 1: Wie erwerben Kinder ihre Muttersprache (Erstpracherwerb)? Sprachentwicklung

Mehr

Alphabet, formale Sprache

Alphabet, formale Sprache n Alphabet Alphabet, formale Sprache l nichtleere endliche Menge von Zeichen ( Buchstaben, Symbole) n Wort über einem Alphabet l endliche Folge von Buchstaben, die auch leer sein kann ( ε leere Wort) l

Mehr

Semantik und Pragmatik

Semantik und Pragmatik Semantik und Pragmatik SS 2005 Universität Bielefeld Teil 4, 6. Mai 2005 Gerhard Jäger Semantik und Pragmatik p.1/35 Prädikatenlogik: atomare Formeln Syntax JO, BERTIE, ETHEL, THE-CAKE... sind Individuenkonstanten

Mehr

Grammatiktheorie: Merkmale, Merkmalstrukturen, Unifikation, Unifikationsgrammatiken

Grammatiktheorie: Merkmale, Merkmalstrukturen, Unifikation, Unifikationsgrammatiken Grammatiktheorie: Merkmale, Merkmalstrukturen, Unifikation, Unifikationsgrammatiken Einführungskurs Syntax und Morphologie 11. Vorlesung Merkmale Das Wort 'Merkmal' bedeutet im Prinzip soviel wie 'Eigenschaft'

Mehr

Klausur zu Mathematische Grundlagen BachelorStudiengänge der Informatik

Klausur zu Mathematische Grundlagen BachelorStudiengänge der Informatik Klausur zu Mathematische Grundlagen BachelorStudiengänge der Informatik SS 2016, 16.07.2016 Prof. Dr. Hans-Jürgen Steens Name: Vorname: Matrikelnummer: Die Klausur besteht aus 23 Aufgaben. Es sind maximal

Mehr

Ein Fragment von Pascal

Ein Fragment von Pascal Ein Fragment von Pascal Wir beschreiben einen (allerdings sehr kleinen) Ausschnitt von Pascal durch eine kontextfreie Grammatik. Wir benutzen das Alphabet Σ = {a,..., z, ;, :=, begin, end, while, do} und

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2018

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2018 Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2018 S. Constantin (stefan.constantin@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 4 Maschinelles Lernen und Spracherkennung Abgabe

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 Schütze & Zangenfeind: Konstituentensyntax

Mehr

Grammatiken. Grammatiken sind regelbasierte Kalküle zur Konstruktion von Systemen und Sprachen Überprüfung von Systemen und Sprachen

Grammatiken. Grammatiken sind regelbasierte Kalküle zur Konstruktion von Systemen und Sprachen Überprüfung von Systemen und Sprachen Grammatiken Grammatiken sind regelbasierte Kalküle zur Konstruktion von Systemen und Sprachen Überprüfung von Systemen und Sprachen Grammatiken eignen sich besonders zur Modellierung beliebig tief geschachtelter,

Mehr

Warum Utilitaristen keine Fragen beantworten können. Andreas Müller Humboldt-Universität zu Berlin Matrikelnummer:

Warum Utilitaristen keine Fragen beantworten können. Andreas Müller Humboldt-Universität zu Berlin Matrikelnummer: Warum Utilitaristen keine Fragen beantworten können Andreas Müller Humboldt-Universität zu Berlin Matrikelnummer: 503924 Email: yalu@gmx.com 06. Dezember 2006 Einleitung Die Frage, die ich in diesem Essay

Mehr

Studienprojekt TaxoSearch Spezifikation

Studienprojekt TaxoSearch Spezifikation Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna

Mehr

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle

Mehr

Adventure-Problem. Vorlesung Automaten und Formale Sprachen Sommersemester Adventure-Problem

Adventure-Problem. Vorlesung Automaten und Formale Sprachen Sommersemester Adventure-Problem -Problem Vorlesung Automaten und Formale Sprachen Sommersemester 2018 Prof. Barbara König Übungsleitung: Christina Mika-Michalski Zum Aufwärmen: wir betrachten das sogenannte -Problem, bei dem ein Abenteurer/eine

Mehr

Transition Network Parser

Transition Network Parser Transition Grammatik als endlicher Automat oder Übergangsnetzwerk. Jedes Netzwerk repräsentiert ein Nichtterminal. Kanten repräsentieren Terminale oder Nichtterminale. Pfad durch das Netzwerk korrespondiert

Mehr

KAPITEL I EINLEITUNG

KAPITEL I EINLEITUNG KAPITEL I EINLEITUNG A. Hintergrunds Eines des wichtigsten Kommunikationsmittel ist die Sprache. Sprache ist ein System von Lauten, von Wörtern und von Regeln für die Bildung von Sätzen, das man benutzt,

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Hinrich Schütze Center for Information and Language Processing 2018-10-15 Schütze: Einführung in die Computerlinguistik 1 / 75 Die Grundfassung dieses Foliensatzes

Mehr

Beschreibungskomplexität von Grammatiken Definitionen

Beschreibungskomplexität von Grammatiken Definitionen Beschreibungskomplexität von Grammatiken Definitionen Für eine Grammatik G = (N, T, P, S) führen wir die folgenden drei Komplexitätsmaße ein: Var(G) = #(N), Prod(G) = #(P ), Symb(G) = ( α + β + 1). α β

Mehr

Daten und Algorithmen

Daten und Algorithmen LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE Kapitel 3 Daten und Algorithmen Skript zur Vorlesung Einführung in die Programmierung g im Wintersemester 2012/13 Ludwig-Maximilians-Universität

Mehr

/26

/26 7 8 3 3 7 2 8 2 8. /2 Sudoku 2 2 3 3 7 7 8 8 8 Füllen Sie die leeren Felder so aus, dass in jeder Zeile, in jeder Spalte und in jedem 3x3 Kästchen alle Zahlen von bis stehen.. 2/2 Warum? 7 8 3 3 7 2 8

Mehr

Einführung in die Computerlinguistik. Morphologie III

Einführung in die Computerlinguistik. Morphologie III Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III

Mehr

Stratego/XT und ASF+SDF Meta-Environment. Paul Weder Seminar Transformationen Datum:

Stratego/XT und ASF+SDF Meta-Environment. Paul Weder Seminar Transformationen Datum: Stratego/XT und ASF+SDF Meta-Environment Paul Weder Seminar Transformationen Datum: 20.01.2006 Gliederung Allgemeines ASF+SDF Meta-Environment Stratego/XT Zusammenfassung/Vergleich SDF (Syntax Definition

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 216 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Aufgabe

Mehr

12. LA- und PS-Hierarchien im Vergleich

12. LA- und PS-Hierarchien im Vergleich Kapitel 12: LA- und PS-Hierarchien im Vergleich 210 12 LA- und PS-Hierarchien im Vergleich 121 Sprachklassen der LA- und PS-Grammatik 1211 Komplexitätsklassen der LA- und PS-Hierarchie LA-Grammatik PS-Grammatik

Mehr

Sprachentwicklung beim Kind

Sprachentwicklung beim Kind Gisela Szagun Sprachentwicklung beim Kind Ein Lehrbuch Beltz Verlag Weinheim und Basel Inhaltsverzeichnis Inhaltsverzeichnis Vorwort 9 Einleitung 11 1 Linguistische Grundbegriffe 17 1.1 Sprache und Kommunikation

Mehr