Computerlinguistik: Ein Überblick

Transkript

1

2

3 Einleitung: Was ist Computerlinguistik?

4 Was ist Computerlinguistik? Es gibt verschiedene Definitionen davon, was Computerlinguistik ist; folgende ist die für uns maßgebliche: Computerlinguistik ist alles, was darauf hinarbeitet, dass der Computer Sprache versteht, bzw. sprachliche Kompetenz hat. Das läßt aber noch viele Fragen offen: denn was heißt verstehen? Es gibt Programme, die Übersetzungen von einer Sprache in eine andere ausführen, aber sie verstehen nichts von dem, was sie übersetzen.

5 Was ist Computerlinguistik? Deswegen ist es besser zu sagen, dass die Computerlinguistik darauf hinarbeitet, Programme mit linguistischen Kompetenzen zu erstellen. Vieles von dem, was Computerlinguisten machen, hat jedoch keine unmittelbare Anwendung, sondern geschieht nur im Hinblick auf evtl. zukünftige Anwendugen: das vollständige Verstehen von Sprache durch den Computer ist momentan noch eine vollständige Utopie! Insofern gibt es durchaus theoretische und praktische Computerlinguistik.

6 Was ist Computerlinguistik? Allerdings kann man CL nicht als Teilgebiet der Linguistik auffassen wie Phonetik, Morphologie, Syntax etc. Vielmehr gibt es zu (fast) allen Teilfeldern der Linguistik ein zugehöriges Teilfeld der CL: Darüber hinaus gibt es noch genuin computerlinguistische Felder. die keinem traditionellen linguistischen Teilgebiet entsprechen.

7 Was ist Computerlinguistik? So gibt es etwa: Computationelle Phonetik im Sinne von Spracherkennung und Sprachgenerierung (alias text-to-speech), die sich damit beschäftigt, aus Wortformen die Morphologische Information zu extrahieren. Das ist insbesondere wichtig an der Schittstelle zur Syntax und Phonologie Syntax: hier ist besonders Parsing hervorzuheben, das ein wichtiges Teilgebiet der CL ist. Dabei geht es darum, einem Satz die korrekte strukturelle Beschreibung zuzuweisen.

8 Was ist Computerlinguistik? Computationelle Semantik gibt es ebenso: hier geht es v.a. darum, Inferenzen effektiv zu berechnen, eine Frage, um die sich Semantiker selten kümmern. Die Pragmatik spielt in der CL noch keine Rolle, aber das kann sich ändern wenn Dialogsysteme ausgefeilter werden.

9 Was ist Computerlinguistik? Es gibt aber auch eine Reihe genuin computerlinguistischer Felder, die keinem linguistischen Teilgebiet entsprechen: Maschinelle Übersetzung ist ein wichtiges und sehr bekanntes Teilgebiet Dialogsysteme, die sich mit Menschen unterhalten können und Informationen verstehen und weiterleiten, sind ebenfalls ein wichtiges Thema. Solche Systeme sind hochkomplex und verlange viele Module. Daher funktionieren sie nur für sehr beschränkte Domänen, wie Wetter, medizinische Vordiagnose, Rezeption etc.

10 Was ist Computerlinguistik? Informationsextraktion/Textzusammenfassung befassen sich damit, aus langen Texten die wesentlichen Informationen für Nutzer kurz darzustellen. Wichtig ist hierbei dass diese Systeme keinerlei Verständnis für die Text haben; sie arbeiten allein auf der Basis statistischer Regelmäßigkeiten. Es gibt noch viele weitere Anwendungen; das hier ist nur ein grober, und auch von dem werden wir nur Ausschnitte sehr oberflächlich betrachten.

11 Was ist Computerlinguistik? Dementsprechend gliedert sich diese Präsentation in 1. Einen Teil, der zu den linguistischen Kernbereichen das computerlinguistische Pendant vorstellt, 2. und einen Teil, in dem eine genuin computerlinguistische Anwendung skizziert wird, nämlich die Maschinelle Übersetzung.

12 Computerlinguistik und Phonetik

13 Spracherkennung & Sprachgenerierung Auf dem Gebiet der computationellen Phonetik unterscheidet man 2 große Anwendungsgebiete: die Spracherkennung und die Sprachgenerierung. Die beiden haben erstaunlich wenig miteinander zu tun! Beide umfassen Bereiche, die eher der Ingenieurswissenschaft und Physik zugehören als der CL, wie etwa Spektralanalyse und Fourier-Transformation. In Düsseldorf gibt es meines Wissens niemanden, der sich damit beschäftigt

14

15 In normalen Grammatiken ist die lexikalische Ausgabe einer Regel nicht ein Wort wie sondern so etwas wie den Männern N + PL + Dat d.h. ein beliebiges Nomen im Dativ Plural. Das spart uns viele unnötige Regeln sonst bräuchte wir für jedes Nomen, jeden Kasus etc. eigene Regeln. Es ist dann Aufgabe der Morphologie, zu bestimmen, wie das Wort letzlich realisiert wird.

16 Computationellen Morphologie Nehmen wir an, wir haben eine Programm, das uns sagt ob ein Satz gutes Deutsch ist, z.b. (1) Er versteht sich gut mit Männern. Wir können nicht unmittelbar unsere syntaktischen Regeln darauf anwenden: Wir müssen zunächst part-of-speech taggen, d.h. die Worte durch ihre morphologische Information ersetzen! Das ist eine typische Aufgabe der Computationellen Morphologie.

17 Morphologische Lexika Man macht das mittels eines morphologischen Lexikons. Das sieht etwas anders aus als gewöhnliche Lexika: Ein morphologisches Lexikon ist eine Menge M von Paaren (anders gesagt eine Relation) der Form (2) a. (Männern, Mann.N+PL+Dat) b. (Mann, Mann.N+SG+Nom) c. (Mann, Mann.N+SG+Dat) d....

18 Morphologische Lexika Hier liefert uns die linke Seite morphologische Realisierung, während die rechte Seite uns 1. den Stamm 2. die Kategorie 3. die Inflektionsmerkmale liefert. Wenn wir mittels dieser Relation jedes Wort des Satzes mit seiner morphologischen Analyse ersetzt haben, dann können wir seine syntaktische Wohlgeformtheit analysieren.

19 Morphologische Lexika: Ambiguität Hier gibt es ein großes Problem: es gibt also viele Möglichkeiten, dasselbe Wort morphologisch zu analysieren. Z.B.: (3) a. (Mann, Mann.N+Mask+SG+Nom) b. (Mann, Mann.N+SG+Dat) c. (Mann, Mann.N+SG+Akk) d....

20 Morphologische Lexika: Ambiguität Noch viel schlimmer ist es bei Worten wie der: (4) a. (der, der.det.n+mask+sg+nom) b. (der, der.det+fem+sg+gen) c. (der, der.det+mask+pl+dat) d. (der, der.relpron+mask+sg+nom) e.... Es gibt also nicht nur verschiedene Kasus und Numeri, sondern auch verschiedene Genera und sogar Wortarten für ein und dasselbe Wort!

21 Part-of-speech-tagging Diese Tatsache führt dazu, dass part-of-speech-tagging eine wichtige und interessante Aufgabe ist. Die Aufgabe stellt sich wie folgt: Gegeben einen (deutschen) Satz S, wie lässt sich jedes Wort in S so analysieren, dass die Analyse im Gesamtsatz einen Sinn ergibt? Z.B. (5) Der Hund der Verkäuferin beißt

22 Part-of-speech-tagging (6) Der Hund der Verkäuferin beißt Eine mögliche Tag-Sequenz wäre: Der Hund der Verkäuferin beißt der.det+mask+sg+nom Hund.N+Mask+Sg.Nom der.det+fem+sg+gen Verkäuferin.N+Fem+Sg+Gen beißen.v+3p+sg+präs+akt

23 Part-of-speech-tagging Eine andere mögliche Tag-Sequenz wäre: Der Hund der Verkäuferin beißt der.relpron+fem+pl+gen Hund.N+Mask+Sg+Dat der.det+mask+sg+nom Verkäuferin.N+Fem+Sg+Nom beißen.v+3p+sg+präs+akt Das ist aber offensichtlich fehlerhaft; es ist also alles andere als einfach, einen ganzen Satz morphologisch richtig zu analysieren!

24 Hidden-Markov-Modelle Man löst dieses Problem mit sogenannten Hidden-Markov-Modellen (HMMs). Vereinfacht gesagt hat so ein Modell zwei bedingte Wahrscheinlichkeitsverteilungen; Eine bedingte Wahrscheinlichkeitsverteilung P(A B) sagt uns die Wahrscheinlichkeit, dass etwas der Fall, gegeben wir wissen das etwas anderes der Fall ist z.b. die Wahrscheinlichkeit, dass Sie einen Abschluss bekommen, gegeben dass Sie Linguistik studieren.

25 Hidden-Markov-Modelle Sei w ein Wort, w.morph eine morphologische Analyse. 1. P(w.MORPH w) gibt eine Wahrscheinlichkeit, dass ein Wort auf eine gewisse Art morphologisch analysiert wird 2. P(w.MORPH w.morph ) eine Wahrscheinlichkeit, dass w.morph auf w.morph folgt Für 1.: P(der.Det+Mask+Sg.Nom der)> P(der.Det+Fem+Pl+Gen der). (das reflektiert dass z.b. der Hund häufiger ist als der Frauen ) Für 2.: P( Hund.N+Mask+Sg.Nom der.det+mask+sg+nom)> P( Hund.N+Mask+Sg.Nom der.det+fem+pl+gen)

26 Hidden-Markov-Modelle Wir suchen nun die Abfolge von tags, die die Gesamtwahrscheinlichkeit von beiden Funktionen und gegeben den Eingabesatz maximieren. Das geht recht flott, da es hierfür bereits gute Algorithmen gibt (Viterbi Algorithmus). Das ist natürlich nur ein sehr einfaches Anwendungsbeispiel.

27 Syntax in der Computerlinguistik

28 Grammatikimplementierung Es gibt in der Linguistik vielerlei (syntaktische) Grammatiktheorien. Die ernsthafteren davon haben den Anspruch, dass sie eine Sprache (oder ein Fragment davon) vollständig und eindeutig beschreiben. Für uns bedeutet das: die syntaktische Beschreibung lässt sich so implementieren, dass auch ein Computer entscheiden kann, was ein wohlgeformeter Satz meiner Sprache (bzw. des Fragments) ist und was nicht.

29 Grammatikimplementierung Das führt uns in das Feld der Grammatikimplementierung, das momentan noch keine breite Anwendung hat, aber dennoch sehr wichtig in der CL ist. Das bedeutet einfach, man programmiert eine Grammatik, die es dem Computer erlaubt, wohlgeformte (d.h. grammatische) Sätze zu erkennen. Der kanonische Ansatz für solche Grammatiken basiert auf sog. kontext-freien Grammatiken (CFG),

30 Kontext-freie Grammatiken CFG sind (leicht vereinfacht) Grammatiken mit Regeln der Form (7) N M O und (8) N a wobei M, N, O sog. Nichtterminale sind, und a ein Terminal. Nichtterminale werden erweitert, bis nur noch Terminal übrigbleiben; dass sind dann die Sätze, die die Grammatik generiert.

31 Kontext-freie Grammatiken Die Grammatiken heißen kontext-frei, weil die möglichen Erweiterungen eines Nichtterminals unabhängig von seinem Kontext ist. Die Ableitung eines Satzes in einer CFT kann man daher als Baum auffassen: S NP VP Det N ÐÙ Ø Ö À

32 Parsing Ein wichtiges Problem dabei ist folgendes: gegeben eine Grammatik der Form S N M M Katze N N Hund und ein Satz (9) Hund Katze Hund ist es keinesfalls trivial zu bestimmen, ob. 1. die Grammatik den Satz generiert, und 2. welche Ableitungsbäume sie hat.

33 Parsing Dieses zu beantworten nennt man Parsing; wir nehmen eine Grammatik, einen Satz, und versuchen den Satz mit der Grammatik zu parsen. Man kann Parsing also verstehen als die Zuweisung einer/aller strukturellen Beschreibungen eines Satzes nach der Grammatik wenn es denn eine solche gibt, d.h. der Satz wohlgeformt ist!

34 Parsing Parsing fördert oft Überraschendes zutage: Wenn man eine große CFG für das Deutsche nimmt und einen Standardparser wie NEGRA, einen Satz parsen läßt wie (10) Dieser Satz ist schwer zu parsen. dann bekommen wir bis in die hunderte von verschiedene Ableitungen (siehe Bsp.)!

35 Ambiguität als Problem Das liegt daran, dass große Grammatiken eine Vielzahl von Regeln haben aber diejenigen, die sie schreiben verlieren schnell den darüber, wie komplex die möglichen Interaktionen sind! Das bringt uns auf das Problem der Ambiguität: wir möchten normalerweise nicht alle Parse haben, sondern nur den plausibelsten.

36 Ambiguität als Problem Folgendes Beispiel: (11) a. Time flies like an arrow. b. Die Zeit fliegt wie ein Pfeil. c. Zeitfliegen mögen einen Pfeil. Die beiden Übersetzungen entsprechen zwei verschiedenen Analysen, der englische Satz ist also strukturell ambig.

37 Ambiguität als Problem Dennoch ist die eine Analyse viel plausibler als die andere! Wir haben also ein ähnliches Problem wie beim POS-tagging: wir möchten von allen Parsen den/die Plausibelsten haben. Die Lösung ist ebenfalls ähnlich: man nimmt zu jeder Regel eine Wahrscheinlichkeit hinzu, und wählt am Ende die Ableitung, die insgesamt die höchste Wahrscheinlichkeit aufweist (=Produkt aller Regelwahrscheinlichkeiten).

38 Linguistisch motivierte Grammatiken Während CFG der Standard in der CL sind, gehen fast alle linguistischen Theorien davon aus, dass diese unzureichend sind. Wir haben also mächtigere Erweiterungen; die große Frage ist: Eignen sich diese Erweiterungen zur Implementierung (d.h. sind sie ausreichend wohldefiniert)? Gibt es dafür effiziente Parsingalgorithmen? Um die zweite Frage zu verstehen, muss man wissen das allgemein gilt: je komplexer die Grammatik, desto schwieriger ist das Parsing.

39 Linguistisch motivierte Grammatiken Beide Fragen haben übrigens auch eine linguistische Relevanz: denn (nach Annahme der Grammatiktheorie) nutzen Menschen eben diese Grammatiken, um Sätze zu verstehen, d.h. insbesondere zu parsen! Wenn diese Grammatiken es also Menschen erlauben, effizient Sätze zu verstehen, dann sollten sie es auch dem Computer erlauben.

40 Linguistisch motivierte Grammatiken Es gibt also ein fruchtbares Wechselspiel zwischen Computerlinguistik und Linguistik im Feld der Syntax; das ist insbesondere ein Forschungsschwerpunkt der HHU: Tree-Adjoining Grammars und Multiple Kontext-freie Grammatiken, beides Erweiterungen von CFG, die sowohl in Linguistik als auch in CL eine wichtige Rolle spielen!

41 Computationelle Semantik

42 Computationelle Semantik Es ist ein altes philosophisches Problem und nach wie vor völlig unklar was eine Bedeutung wirklich ist. Allerdings ist mittlerweile recht klar, was eine Bedeutung tun soll, und das sind v.a. zwei Dinge: 1. sie soll Wahrheitbedingungen überpüfbar machen; d.h. gegeben einen Sachverhalt sollen wir entscheiden können, ob die Bedeutung zutrifft oder nicht; 2. sie soll Inferenzen ermöglichen; d.h. wenn die Wahrheit von B 1 die Wahrheit von B 2 impliziert, dann sollte es möglich sein, aus B 1, B 2 zu errechnen.

43 Computationelle Semantik Während in der linguistischen Semantik (momentan) der Fokus sich sehr auf Punkt 1 verengt, liegt in der computationellen Semantik der Fokus auf Punkt 2. Ein anderer Punkt der Computationellen Semantik ist der Fokus auf der Berechenbarkeit der Bedeutung, der sonst auch Vielfach vernachlässigt wird.

44 Ein Beispiel: Textuelle Inferenz Eine wichtige Problem der CL ist die sogenannte textuelle Inferenz, also die Frage ob aus einem Text eine gewisse Aussage folgt, z.b.: Gestern habe ich ein Huhn und eine Packung Eier gekauft. Mit den Eiern habe ich einen Kuchen gebacken. Impliziert das: Ich habe ein Huhn? Ich habe Eier? Solche Systeme nutzen selten elaborierte semantische Repräsentationen, funktionieren aber gut auf Basis von oberflächlichen Methoden!

45 Noch ein Beispiel: Distributionelle Semantik Ein großes Problem der klassischen Semantik ist die lexikalische Semantik. Während die logische Semantik die Bedeutung von z.b. Hund als atomar auffasst, ist das natürlich inadäquat: Dackel impliziert Hund impliziert Säugetier. Umgekehrt gibt es in der lexikalischen Semantik Analysen zur Bedeutung einzelner Worte, die hochkomplex sind. Dass es solche Analysen für einem signifikanten Teil des deutschen/englischen Lexikons gibt, und diese sich auf die gewünschte Art zusammenfügen, schein völlig utopisch.

46 Distributionelle Semantik: Wortbedeutungen als Vektoren Die distributionelle Semantik erzeugt automatisch semantische Repräsentationen von lexikalischen Objekten. Diese sind zwar theoretisch inadäquat (wie so oft in der CL), aber für viele praktische Zwecke ausreichend (oder zumindest hilfreich)! Kurz gesagt: in der DS sind Wortbedeutungen Vektoren.

47 Distributionelle Semantik: Wortbedeutungen als Vektoren Zur Erinnerung: ein (n-dimensionaler) Vektor von reellen Zahlen ist ein Tupel (r 1,..., r n ), wobei r 1,.., r n R. Die Idee der distributionellen Semantik ist nun folgende: 1. Die Bedeutung eines Wortes läßt sich in vielen Fällen gut approximieren durch die (Häufigkeit der) Worte, mit denen es zusammen im Satz auftritt (sog. Ko-Okkurrenzen). 2. Die Ko-Okkurrenzen eines Wortes lassen sich wiederum als ein L -dimensionaler Vektor auffassen, wobei L die Größe unseres Lexikons ist.

48 Distributionelle Semantik: Wortbedeutungen als Vektoren Den Vektor eines Wortes lässt sich sehr einfach automatisch erzeugen: sei T ein Text, L das zugehörige Lexikon (einfach die Menge der Worte, die in T vorkommen); mit L bezeichnen wir die Größe des Lexikons. Wir nehmen nun eine (beliebige) Funktion f : {1,..., L } L, die eine Bijektion, also 1-zu-1 ist.

49 Distributionelle Semantik: Wortbedeutungen als Vektoren Sei w ein Wort unseres Lexikons. Nun ist φ(w) = (n 1,..., n L ), genau dann wenn (für 1 i L ) w n i -mal zusammen mit dem Wort f (i) im selben Satz auftritt in T. Z.B.: f (Hund) = 5; Hund kommt 18-mal im selben Satz wie Katze vor. Also: φ(katze) = (n 1,.., n 4, 18, n 6,...).

50 Distributionelle Semantik: Wortbedeutungen als Vektoren 1. Solche Vektoren kann man problemlos automatisch erstellen, auch für sehr große Texte; 2. durch schiere Größe geben sie uns ein relativ verläßliches Kriterium für semantische Verwandtschaft: 3. wenn zwei Vektoren im L -dimensionalen Raum grob in dieselbe Richtung zeigen, dann ist es fast sicher dass zwischen den beiden Worten eine semantische Verwandtschaft besteht. 4. mit solchen Vektoren kann man auch gut rechnen : man kann sie z.b. addieren, Skalarprodukt bestimmen, Richtung bestimmen und komplexere Operationen ausführen.

51 Distributionelle Semantik: Beschränkungen Distributionelle Semantik kann auch für Inferenzen benutzt werden das klappt für viele Bereiche erstaunlich gut! Natürlich hat diese Methode ihre Beschränkungen. Man wird auf diese Weise niemals die Bedeutung logischer Worte wie nicht, ein etc. darstellen können. Deswegen aktuelle Forschung in hybriden Methoden, wie sich distributionelle Semantik mit klassischer logischer Semantik verbinden lässt. dennoch ist es erstaunlich, was sich mit diesen simplen Methoden alles erreichen lässt!

52 Nicht-linguistische Felder und Methoden

53 Eine allgemeine Regel in der CL Für rein Anwendungsorierntiert CL hat es sich folgende Regel etabliert: Linguistische, regelbasierte Systeme verlangen sehr viel Arbeit, um mit sehr einfachen, rein statistisch basierten Systemen mithalten zu können. Das hat dazu geführt, dass in der anwendungsorientierten CL linguistisch basierte Methoden eine geringe Bedeutung haben; erst in jüngster Zeit erlangen die letzteren wieder einige Bedeutung im Rahmen hybrider Systeme; diese werden wir hier aber nicht behandeln.

54 Maschinelle Übersetzung Der Aufstieg dieser statistischen Methoden fällt zusammen mit dem Aufstieg des maschinellen Lernens; erfolgreiche Modelle zeichnen sich v.a. dadurch aus, dass sie sich automatisch erstellen lassen, also wenig Handarbeit erfordern. Ein Musterbeispiel für den Erfolg einfacher Methoden sind die ersten funktionierenden Übersetzungssysteme (die sog. IBM-Modelle). Wir betrachten zunächst das Modell, danach seine automatische Induktion.

55 Das Outline Übersetzungsmodell IBM I IBM I hat drei Module: 1. ein Übersetzungslexikon, in dem jede Übersetzung (z.b. englisches Wort - deutsches Wort) eine gewisse Wahrscheinlichkeit P(d e) hat 2. eine Alinierungsfunktion, in der jede Alinierung zweier Sätze eine gewisse Wahrscheinlichkeit erhält 3. ein Sprachmodell, dass jedem (deutschen) Ausgabesatz eine Wahrscheinlichkeit P( d) zuweist

56 Das Outline Übersetzungsmodell IBM I Die Alinierung bestimmt, welches Wort der Eingabe als welches Wort der Ausgabe übersetzt wird. Am Ende nehmen wir die Ausgabe, die (für eine Eingabe) die höchste Wahrscheinlichkeit hat, d.h. Wortübersetzungen mal Alinierung mal Sprachmodell-Wahrscheinlichkeit Soweit sogut - aber woher kommen die Wahrscheinlichkeiten?

57 Der EM-Algorithmus Alles was wir brauchen (und haben) ist ein Text, der 1. in zwei Sprachen abgefasst ist, und 2. für jeden Satz der einen Sprache klar ist, mit welchem Satz der anderen Sprache er übersetzt wird: (siehe Bsp.!)

58 Der EM-Algorithmus Was wir daraus schließen können: Wenn w 1 (englisches Wort) im englischen Satz vorkommt, dann kommt v 1 (deutsches Wort) n mal in einem zugehörigen deutschen Satz vor, z.b. (house, Haus, 18); (house, Auto, 3); etc. Diese ersten Zahlen erlauben es uns eine Wortalinierung zu machen: nämlich so dass die Worte mit maximalen Ko-Okkurrenzen aliniert sind!

59 Der EM-Algorithmus Jetzt kommt der Trick: wir nutzen diese Alinierungen, um neue, verfeinerte Ko-Okkurrenz-Wahrscheinlichkeiten zu schätzen, und alinieren Worte neu nach diesen neuen, verfeinerten Wahrscheinlichkeiten. Damit schätzen wir wieder neue Wahrscheinlichkeiten etc. Der Schritt von Häufigkeiten zu Wahrscheinlichkeiten ist hier implizit, aber kein Problem

60 Der EM-Algorithmus Am Ende haben wir erstaunlich präzise Wortalinierungen, und dementsprechend gute Wahrscheinlichkeiten sowohl für Wortübersetzungen als auch für Alinierungen! Dieser sogenannte EM-Algorithmus ist sehr wichtig im maschinellen Lernen.

61 Sprachmodelle Als Sprachmodell bezeichnet man im Prinzip ein beliebiges Modell das jedem Satz einer Sprache eine Wahrscheinlichkeit zuweist. Die typischen Sprachmodelle sind sogenannte n-gram Modelle. Ein n-gram (n ist eine Variable für eine beliebige natürliche Zahl, üblicherweise zwischen 2 und 5) ist einfach eine Folge von n-wörtern. Ein n-gram Modell weist (vereinfacht gesprochen) jedem n-gram eine Wahrscheinlichkeit zu; die Wahrscheinlichkeit eines Satzes errechnet sich als das Produkt seiner n-gram Wahrscheinlichkeiten.

62 n-gram Modelle Z.B. sei n = 3. Dann ist P(Der Hund sucht die Katze) = P(Der Hund sucht) P(Hund sucht die) P(sucht die Katze)

63 n-gram Modelle n-gram Modelle lassen sich sowohl sehr einfach automatisch induzieren (alles was man braucht ist Text in einer Sprache), als auch sehr einfach& schnell berechnen (man braucht keine komplizierten Algorithmen. Dennoch gibt es bis heute keine Modelle, die ihnen als Sprachmodelle ernsthaft Konkurrenz machen! Insbesondere linguistisch motivierte Modelle schneiden deutlich schlechter ab (sind v.a. weniger robust!)

64 Die Zukunft und Bedeutung der CL (subjektiv)

65 Ein Ausblick auf die Zukunft der CL Im Rahmen der wachsenden Bedeutung der künstlichen Intelligenz ( Industrie 4.0 ) ist zu erwarten, dass auch der Computerlinguistik eine wachsende Bedeutung zukommt. Es ist abzusehen, dass die Methoden des maschinellen Lernens von enormer Bedeutung bleiben. Hier gibt es insbesondere große Entwicklungen und gemeinsame Schnittstellen mit der künstlichen Intelligenz Andererseits ist zu beobachten, dass zunehmend linguistische Methoden in den Kontext des maschinellen Lernens eingebettet werden.

66 Bedeutung der Computerlinguistik Es ist aber auch so, dass innerhalb der Linguistik die CL eine wachsende Bedeutung einnimmt: Erst die CL hat eigentlich gezeigt, wie kompliziert natürliche Sprachen eigentlich sind ernsthafte Grammatiken haben viele tausende Regeln, und Ausnahmen sind damit noch gar nicht behandelt! Nur die CL behandelt (meiner Meinung nach) eigentlich die Frage, wie verschiedene Teilgebiete der Linguistik zusammengehen.

67 Danke für die Aufmerksamkeit!