Einführung in die maschinelle Sprachverarbeitung

Transkript

1 Einführung in die maschinelle Sprachverarbeitung Michaela Geierhos CIS Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilians-Universität München 17. April Statistische Methoden in der Sprachverarbeitung 1 Statistik in der Computerlinguistik Allgemeines Statistik in der Syntax Statistik in der Semantik Statistik in der Morphologie Textlinguistik und Textklassifikation Lexikographie Anwendungsbereiche der Statistik in der Computerlinguistik Statistische Methoden in der Sprachverarbeitung 2

2 Teildisziplinen der Statistik Deskriptive und explorative Statistik (Datenbeschreibung) Beschreibung von Daten Darstellung von Daten Entdeckung von Strukturen und Besonderheiten in den Daten Analytische Statistik - Induktive Statistik Schlussfolgerungen aus Daten Einbeziehung der Wahrscheinlichkeitstheorie (Stochastik) Statistische Methoden in der Sprachverarbeitung 3 Statistik in der Syntax I Syntax ist die Beschreibung der Struktur natürlichsprachlicher Syntagmen (Sätze und ihrer Konstituenten). Wie sind Sätze beschaffen? Syntax, Struktur von Sprache. Um Sprache zu verstehen, müssen wir wissen, welche Sätze möglich / wahrscheinlich sind. Teilbereiche der Syntax bezogen auf die Computerlinguistik sind u.a. Tagging, Parsing, Generierung syntaktisch korrekter Sätze, Erfassung und Erkennung von Mehrwortlexemen Statistische Methoden in der Sprachverarbeitung 4

3 Statistik in der Syntax II 1. Fragestellungen in der deskriptiven Statistik Welche syntaktische Kategorien sind wie häufig in einem Text / einem Korpus zu finden? Welche Kategorienfolgen sind wie oft in einem Text vorhanden? Es könnten sich beispielsweise bei der Analyse eines Korpus mit Wörtern folgende Häufigkeiten für Folgen von zwei Kategorien ergeben: DET N: 300 ADJ N : 32 V N : 3 Ebenso können statistisch erfasst werden: Satztypen Konstruktionstypen Statistische Methoden in der Sprachverarbeitung 5 Statistik in der Syntax III 2. Fragestellungen in der induktiven Statistik Welche syntaktische Kategorie ist wahrscheinlich - sollte gewählt werden? Wortartentagging Z.B. kann irre eine Verbform sein (von irren) oder eine Adjektivform (von irr) sein. Die Folge DET V A ist in beliebigen Trainingskorpora inexistent bis selten, DET A N dagegen häufig. der irre Professor DET V/A N Welche syntaktische Analyse ist die richtige? Statistisches Parsing, Ambiguitätsresolution Z.B. Sie beobachtet den Mann mit dem Fernrohr Statistische Methoden in der Sprachverarbeitung 6

4 Statistik in der Semantik I Die Semantik befasst sich mit der Beschreibung der Bedeutung lexikalischer Einheiten (Wortsemantik/lexikalische Semantik) den Regularitäten zur Ermittlung der Bedeutung komplexer Einheiten (Satzsemantik). Wie ist der Zusammenhang zwischen einem Satz und der Welt; welche Aussage macht ein Satz über die Welt? Semantik, Bedeutung, Pragmatik. Um die Bedeutung einer Aussage zu verstehen, müssen wir wissen, in welchem Verhältnis Terme zu Objekten in der Welt stehen Statistische Methoden in der Sprachverarbeitung 7 Statistik in der Semantik II 1. Fragestellungen in der deskriptiven Statistik Welche Bedeutung eines Worts / einer Wortform ist häufiger/weniger häufig? Maus (Tier/Computerteil) Kontextspezifische Bedeutungshäufigkeit - in welchem lexikalischen oder syntagmatischen Kontext taucht welche Bedeutung häufiger auf? Er scrollt mit der Maus (Lesart Computerteil) Im Keller piepst eine Maus (Lesart Tier) Textspezifische Bedeutungshäufigkeit. Welche Bedeutungsklassen tauchen in bestimmten Textsammlungen häufig auf? Kompositaanalyse (Rosenblatt vs. Manusskriptblatt) Statistische Methoden in der Sprachverarbeitung 8

5 Statistik in der Semantik III 2. Fragestellungen in der induktiven Statistik Die Schlussfolgerungen aus semantischen Datenbeschreibung werden z.b. verwendet zur Bedeutungsdisambiguierung (etwa im Fall Maus). Disambiguierung von Wortbedeutungen ist für zahlreiche Anwendungen unverzichtbar, so etwa im Bereich der maschinellen Übersetzung. Statistische semantische Regularitäten können auch verwendet werden in der thematischen Zuordnung von Texten (Textkategorisierung) Kompositaanalyse Statistische Methoden in der Sprachverarbeitung 9 Statistik in der Morphologie I Die Morphologie beschäftigt sich mit dem Aufbau von Wortformen aus kleineren, noch bedeutungrelevanten Einheiten (Morphemen). 1. Fragestellungen in der deskriptiven Statistik Vollformen-Grundformen-Reduktion. Haus Hau Haus Haus (wahrscheinlichere Variante) Häufigkeit von Affixen und ihre morphologische Zuordnung gext = (99%) = X + Part.Perf. Kompositasegmentierung hat natürlich auch mit Morphologie zu tun Statistische Methoden in der Sprachverarbeitung 10

6 Statistik in der Morphologie II 2. Fragestellungen in der induktiven Statistik Statistiken über die Häufigkeit von Grundformen für eine Vollform können zur richtigen Grundformenreduzierung herangezogen werden Analyse unbekannter Formen gecancelt = cancel + Part.Perf. gext = (99%) = X + Part.Perf. Statistiken über Kompositaregularitäten können zur korrekten Analyse von Komposita herangezogen werden Ballkleid, Ballsaal Bücherwurm, Bücherregal, Büchersendung Kindeskinder, Kindesmissbrauch Statistische Methoden in der Sprachverarbeitung 11 Statistik in der Textlinguistik I Die Textlinguistik beschäftigt sich mit dem satzübergreifenden Regularitäten in Texten, Texteigenschaften (Wortartenverteilung) und Textklassifikation (Genre, Themengebiete). 1. Fragestellungen in der deskriptiven Statistik Vollformen-Grundformen-Reduktion. Haus Hau Haus Haus (wahrscheinlichere Variante) Häufigkeit von Affixen und ihre morphologische Zuordnung gext = (99%) = X + Part.Perf. Kompositasegmentierung hat natürlich auch mit Morphologie zu tun Statistische Methoden in der Sprachverarbeitung 12

7 Statistik in der Textlinguistik II 2. Fragestellungen in der induktiven Statistik Anaphernresolution (Bezug von Pronomina) (engl.) Anaphora Resolution Definition: Auflösung des Bezugs einer Anapher, d.h. Finden des Antezedens. Dazu kann man Informationen im linguistischen ebenso wie im nicht-linguistischen Kontext verwenden. David sah sich ein Theaterstück an. Er [David] fand es [das Spiel] sehr gut. (Pronomen als Anaphern). Er nahm die Süßigkeiten, die [die Süßigkeiten] auf dem Tisch lagen. (Anapher in einem Relativsatz) Erkennung von Textsorten, Themengebieten etc Statistische Methoden in der Sprachverarbeitung 13 Statistik in der Lexikographie I Die Lexikographie beschäftigt sich mit der Praxis der Wörterbucherstellung, d.h. mit der Erfassung von Wörtern und Mehrwortlexemen und ihren Eigenschaften. 1. Fragestellungen in der deskriptiven Statistik Für die Lexikographie lassen sich morphologische, syntaktische, semantische und textlinguistische Daten verwenden. Einige Beispiele für statistisch ermittelbare lexikalische Eigenschaften sind: Stilebenen andere textsortenspezifische Eigenschaften Häufigkeiten/Gebräuchlichkeit/historische Entwicklung Statistische Methoden in der Sprachverarbeitung 14

8 Statistik in der Lexikographie II 2. Fragestellungen in der induktiven Statistik Statistische Methoden werden in der Lexikographie v.a. verwendet um lexembezogene Daten aus Textkorpora zu ermitteln. Zum Teil werden die statistisch akquirierten Daten nur als Vorauswahl für eine weitere manuelle Klassifikation verwendet. automatische oder semiautomatische Ermittlung von textsorten-/fachgebietsspezifischen Eigenschaften von Lexemen Zur Erkennung und Extraktion von Mehrwortlexemen gehört die Analyse von Kookurrenzen - d.h. des statistisch signifikanten gemeinsamen Auftretens von Wörtern und Wortformen, und darauf aufbauende Schlussfolgerungen über die Zusammengehörigkeit von Wörtern und Wortformen Statistische Methoden in der Sprachverarbeitung 15 Rechtschreibkorrektur und Grammatikkorrektur Rechtschreib- und Grammatikkorrektur sind Anwendungen, die Textverarbeitungsprogrammen bekannt sind. Rechtschreibkorrektur wird auch in anderen Anwendungen (z.b. Internet-Suchmaschinen) eingesetzt. Verbesserung der Rechtschreib- und Grammatikkorrektur: in der schule wird gelacht... er sagte, er Schule zur Zeit Arbeitslose Computerlinguisten Statistische Methoden in der Sprachverarbeitung 16

9 Textgenerierung und Wortvorschlagssysteme Textgenerierung ist die Erzeugung von Texten aus Inhaltsdaten; z.b. aus einer semantischen Formel, einer formellen Beschreibung, einem Datensatz einer Datenbank. Überprüfung der Plausibilität einer von einer Grammatik generierten Wortfolge; Kommunikationshilfen mit Wortvorschlagssystemen - hier können einfache Wortfolgestatistiken brauchbare Fortsetzungen vorschlagen Statistische Methoden in der Sprachverarbeitung 17 Spracherkennung Spracherkennung ist die Umwandlung gesprochener Sprache in einen elektronischen Text. Die automatische Transkription gesprochener in geschriebene Sprache beruht schon seit langem in erster Linie auf statischen Methoden: Hidden-Markov-Modelle zur Laut-Phonem- Zuordnung Sprachmodelle zur Festlegung wahrscheinlicherer Wortfolgen Statistische Methoden in der Sprachverarbeitung 18

10 Textklassifikation Textklassifikation ist die Einordnung von Texten in vordefinierte Kategorien irgendwelcher Art. Sprachenidentifikation (s. die meisten Suchmaschinen) Ermittlung der Wahrscheinlichkeit mit der ein Text einer Sprache zugeordnet werden kann. Genreklassifikation (Texttyp) Filter. z.b. Pornofilter, wie in den meisten Suchmaschinen verfügbar Ermittlung des relevanten Vokabulars Zuordnungswahrscheinlichkeit zur einer Sammlung von Referenzdokumenten Inhaltliche Klassifikation wie z.b. Scirus ( - automatische Erkennung eines wissenschaftlichen Fachgebiets Statistische Methoden in der Sprachverarbeitung 19 Textretrieval Textretrieval (Information Retrieval) befasst sich mit dem Auffinden spezifischer Textdokumente in einer Dokumentensammlung. Die bekanntesten Textretrievalsysteme sind sicher die Internetsuchmaschinen. Ranking - Ermittlung der Relevanz eines Dokuments bez. der Suchanfrage, abhängig von der Häufigkeit und Position des / der Suchterme/s, von der Länge des Dokuments... Vorklassifizierung von Texten nach verschiedenen Kriterien (Sprache, Domäne, Typ) (siehe Textklassifikation) Vorverarbeitung der Anfrage (Query) Statistische Methoden in der Sprachverarbeitung 20

11 Maschinelle Übersetzung und Alignierung mehrsprachiger Korpora Statistische Algorithmen beruhen auf Zuordnungen in bilingualen Korpora Eigenschaften der Einzelsprachen Lexikalische Zuordnung: Welches Wort ist wahrscheinlich eine Übersetzung eines anderen Wortes? Disambiguierung: Welche Bedeutung eines polysemen Wortes liegt vor? Bruchstück und Satz-Zuordnung: Welche Phrase / welcher Satz ist wahrscheinlich eine Übersetzung eines anderen? Generierung: Welche Übersetzung ist ein wahrscheinlicherer Satz in der Zielsprache? Statistische Methoden in der Sprachverarbeitung 21 Literaturangaben Stefan Langer und Clemens Marschner: Statistische Methoden der Sprachverarbeitung. Vorlesungsskriptum. Centrum für Informations- und Sprachverarbeitung (CIS). LMU München [PDF] Seite 1-7. Johannes Goller: Statistische Methoden der Sprachverarbeitung. Vorlesungsskriptum. Centrum für Informations- und Sprachverarbeitung (CIS). LMU München [PDF] Seite 1-7. C. D. Manning, H. Schütze: Foundations of statistical natural language processing. The MIT Press, Cambridge, MA (Kopiervorlage in Raum B 101) (Buchsignatur MAN VIII 1) Seite Statistische Methoden in der Sprachverarbeitung 22