Einführung in die Computerlinguistik Überblick



Ähnliche Dokumente
Einführung Computerlinguistik. Überblick

Einführung in die Computerlinguistik Überblick

Einführung in die Computerlinguistik

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Anlage 1: Modularisierung des Bachelor-Studiengangs Theoretische und Angewandte Computerlinguistik

Maturandentag 2005 Computerlinguistik

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1.

Informationsblatt Induktionsbeweis

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Was meinen die Leute eigentlich mit: Grexit?

Erfahrungen mit Hartz IV- Empfängern

1 Mathematische Grundlagen

Linguistik für Kognitionswissenschaften

A Lösungen zu Einführungsaufgaben zu QueueTraffic

Jetzt neu: Online Reporting Schritt für Schritt durch das Online Reporting (OLR) Online Liedmeldung

Semantic Web Technologies I

Rhetorik und Argumentationstheorie.

FRAGEBOGEN ANWENDUNG DES ECOPROWINE SELBSTBEWERTUNG-TOOLS

Logische Folgerung. Definition 2.11

Konzepte der Informatik

Mathematisch-algorithmische Grundlagen für Big Data

ANSPRECHPARTNER. Film Mathematik statt Rechnen (Quelle: Hochschule Merseburg) Prof. Dr. Axel Kilian Fachbereich Informatik und Kommunikationssysteme

Zwischenablage (Bilder, Texte,...)

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

Rententafelgarantie. Langlebigkeit: Fluch oder Segen?

Part-of-Speech- Tagging

Handbuch. Artologik EZ-Equip. Plug-in für EZbooking version 3.2. Artisan Global Software

Was ist das Budget für Arbeit?

Einführung in die Fuzzy Logic

Professionelle Seminare im Bereich MS-Office

Ein Blick voraus. des Autors von C++: Bjarne Stroustrup Conrad Kobsch

Grundbegriffe der Informatik

Teamentwicklung. Psychologische Unternehmensberatung Volker Rudat

Einführung in die Computerlinguistik

W-Rechnung und Statistik für Ingenieure Übung 11

Semantik von Formeln und Sequenzen

50 Fragen, um Dir das Rauchen abzugewöhnen 1/6

Grenzen der Formalisierung: zweitbeste Wege?

1 Part-of-Speech Tagging

Einführung in die Informatik

Gezielt über Folien hinweg springen

Es gibt nur eine Bilanz die zählt: Ihre Zufriedenheit.

Die richtigen Partner finden, Ressourcen finden und zusammenführen

Drei Fragen zum Datenschutz im. Nico Reiners

Mächtigkeit von WHILE-Programmen

Welche Chancen bietet ein Mathematikstudium? Prof. Dr. Wolfram Koepf Studiendekan Fachbereich Mathematik, Uni Kassel

VO Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft

Digital Post - Elektronische Behördenpost

Kompetenzen und Aufgabenbeispiele Deutsch Erstes Schreiben

Wichtiges Thema: Ihre private Rente und der viel zu wenig beachtete - Rentenfaktor

Europäische Politik der Mehrsprachigkeit. FUEN Regionalkonferenz in Eupen Februar 2010

Woche 1: Was ist NLP? Die Geschichte des NLP.

Geld Verdienen im Internet leicht gemacht

Menü auf zwei Module verteilt (Joomla 3.4.0)

DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG

Grundlagen der Theoretischen Informatik, SoSe 2008

Auktionen erstellen und verwalten mit dem GV Büro System und der Justiz Auktion

2. Psychologische Fragen. Nicht genannt.

Sudoku-Informatik oder wie man als Informatiker Logikrätsel löst

Webseiten mit fragwürdigen Aufrufen von "spy & track" - Unternehmen

Grundbegriffe der Informatik

Familienunternehmer-Umfrage: Note 4 für Energiepolitik der Bundesregierung 47 Prozent der Unternehmer sehen Energiewende als Chance

Approximation durch Taylorpolynome

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Der kleine große Unterschied

Bochum, den. geb. am: in Matr. Nr.:

Wenn Russland kein Gas mehr liefert

Deutsches Rotes Kreuz. Kopfschmerztagebuch von:

Statuten in leichter Sprache

2 Evaluierung von Retrievalsystemen

Kompetenzen und Aufgabenbeispiele Englisch Schreiben

Lies zuerst den unten stehenden Zeitungsartikel und erfülle dann die einzelnen Aufgaben:

Wir machen neue Politik für Baden-Württemberg

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Benutzerhandbuch - Elterliche Kontrolle

Projekt- Management. Landesverband der Mütterzentren NRW. oder warum Horst bei uns Helga heißt

Begrüßung mit Schwung und Begeisterung. Die Teilnehmer müssen spüren, dass die Aufgabe Spaß macht.

Daten haben wir reichlich! The unbelievable Machine Company 1

Versetzungsregeln in Bayern

Qualität und Verlässlichkeit Das verstehen die Deutschen unter Geschäftsmoral!

Erfolg beginnt im Kopf

IMS - Learning Design

F-E-P : Fragebogen zur Einschätzung der Psychologie. Selbstbild

So funktioniert das online-bestellsystem GIMA-direkt

Ethik im Netz. Hate Speech. Auftraggeber: Landesanstalt für Medien Nordrhein-Westfalen (LfM)

DIE NATIONALEN REGLEMENTIERUNGEN DES BERUFSZUGANGS IN DEN AUGEN DER BEVÖLKERUNG

Bekommen durch Ansteckung. H Human Beim Menschen. Acquired I D. Schwäche des Immunsystems. Schwäche des Immunsystems.

Einführung in Datenbanken - Wiederholung Normalformen - Philipp Cimiano AG Semantische Datenbanken und Wissensverarbeitung

Konzeption & Umsetzung eines länderübergreifenden IKZM - Prozesses

Lehrer: Einschreibemethoden

Zeichen bei Zahlen entschlüsseln

Einführung in Scheduling

ENTWICKLUNG VON MARKETINGZIELEN UND DIE AUSGESTALTUNG EFFEKTIVER MARKETINGINSTRUMENTE IM TOURISMUSMARKETING. Bad Schmiedeberg 20.

Buchhaltung mit WISO EÜR & Kasse 2011

Erhalt und Weiterentwicklung beruflicher Kompetenzen der Lehrerinnen und Lehrer

Datenexport aus JS - Software

Transkript:

Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 1 / 19

Was ist Computerlinguistik? Definition Computational linguistics is the scientific study of models and methods for automatic processing of natural language. Computational linguistics is an interdisciplinary field that shares a large part of its subject matter with computer science and linguistics. However, computational linguists also work on theories, models and methods that are not part of core linguistics or core computer science. Closely related, but different: natural language processing, speech recognition 2 / 19

Anwendungen der Computerlinguistik Rechtschreibkorrektur Grammatiküberprüfung Häufigkeitsanalysen von Vorkommen von Wörtern und linguistischen Phänomenen Lexikographie (Thesauri, Wörterbücher) Informationserschließung (Internet-Recherche) Kommunikation mit Maschine z.b. bei der Bank (vollautomatische) maschinelle Übersetzung 3 / 19

Beispiele für industrielle Anwendungen Internetsuchmaschinen: sehr große Menge an Information, aber hochgradig unstrukturiert direkter Zugang zu relevanten Daten ist schwierig. Dialoganwendungen: Zugang zu komplexen Systemen, z.b. Bestellung eines Bahn- oder Flugtickets, Interaktion mit Bank, auch mit natürlichsprachlichen Anwendungen Übersetzungssysteme: fremdsprachige Web-Seiten, Gebrauchsanweisungen, Wetterberichte etc. automatische Silbentrennung, Rechtschreibprüfung und -korrektur automatische Spracherkennung Informationsextraktion, z.b. relevante Qualifikationen aus Bewerbungsbriefen und Lebensläufen maschinell extrahieren 4 / 19

Berufsfelder für Computerlinguisten Verarbeitung gesprochener Sprache für die Interaktion mit Computern Verarbeitung von Texten (suchen, bearbeiten und verwalten) Einsatz sprachtechnologischer Software und Ressourcen (in Verlagen, Übersetzungsbüros, Verwaltungen etc.): Maschinelle Übersetzung, elektronische Wörterbücher, Spracherkennung, Sprachgenerierung, lexikonbasierte Optimierung von Optical-Character-Recognition-Verfahren (OCR) akademischer Bereich Bedarf an Experten steigt tendentiell 5 / 19

Typische Forschungsgegenstände Entwicklung von Methoden (Theorie) Entwicklung realistischer Anwendungen (Praxis) Aufbau und Verwaltung großer wiederverwendbarer Korpora (Daten) Konzeption effektiver Evaluationsmechanismen (Experimente) 6 / 19

Nachbardisziplinen (1) Linguistik Die Wissenschaft, die sich mit menschlicher Sprache beschäftigt Grundinventar linguistischer Termini Teilgebiete: Phonetik/Phonologie, Morphologie, Syntax, Semantik, Pragmatik; Korpuslinguistik Informatik (Algorithmen, Datenstrukturen, Software Engineering) Philosophie (Verbindung von Sprache, Denken und Handeln; Relation zu außersprachlichen Gegebenheiten) Künstliche Intelligenz (knowledge representation, reasoning, learning) 7 / 19

Nachbardisziplinen (2) Kognitionswissenschaft (Sprachbeherrschung ist spezieller Teilbereich der kognitiven Fähigkeiten des Menschen) Mathematik Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik, Graphentheorie Sprache ist oft nicht logisch: (1) Ein großer Berg vs. Eine große Ameise Vagheit des Adjektivs (kein Problem für Menschen) Logik modifizieren in CL (2) Vögel fliegen. / Pinguine sind Vögel. / Pinguine fliegen. scheinbar widersprüchliche Aussagen (Mensch hat wenig Probleme damit) 8 / 19

Teilgebiete der Linguistik Phonetik und Phonologie Morphologie Syntax Semantik Pragmatik Jedes dieser Teilgebiete hat auch eine Entsprechung in der Computerlinguistik. 9 / 19

Phonetik und Phonologie artikulatorische Merkmale Lautstruktur natürlicher Sprachen Spracherkennung: Erkennung und Produktion gesprochener Sprache modellieren, welche Segmente ein Wort enthält und wie sich deren Struktur auf die Aussprache auswirkt z.b. wenn ein im Prinzip stimmhafter Konsonant am Wortende stimmlos wird ( Auslautverhärtung ): (3) Dieb /Diep/ vs. Diebe /Diebe/ 10 / 19

Morphologie Bildung und Struktur von Wörtern lexikalische Wurzel von einzelnen Wörtern Prozesse, verantwortlich für unterschiedliche Erscheinungsformen an der Oberfläche Veränderung der Verwendung und Bedeutung des Wortes durch Oberflächenmodifikationen z.b. Suffix -e als Pluralmarkierung: (4) Dieb-e Dieb-pl Mehr als ein Dieb 11 / 19

Syntax Strukturbildung von Sätzen traditionell am stärksten vertretene Teildisziplin der Computerlinguistik Erkennung von Grammatikalität und darauf folgende Bedeutungserschließung z.b. (5) Der gewitzte Dieb stahl das Geld. vs. *Der Dieb gewitzte stahl das Geld. 12 / 19

Semantik Bedeutung sprachlicher Einheiten (Wort, Satz etc.) z.b. (6) Die Polizei beschlagnahmte das Diebesgut. vs. Das Diebesgut beschlagnahmte die Polizei. gleiche Bedeutung 13 / 19

Pragmatik Zweck einer Äußerung in der Welt, z.b. Wissen Sie, wie spät es ist? Bestimmung des Bezugs von Wörtern: Antezedens eines Pronomens, z.b.: Die Katze schnurrt. Sie hat Hunger. implizite Annahmen (Präsuppositionen), z.b.: der Präsident von Frankreich wurde nicht in Paris geboren der Präsident von Norwegen wurde nicht in Oslo geboren 14 / 19

Korpuslinguistik seit Anfang 1980er Fortschritte bei Erkennung gesprochener Sprache Wortartendisambiguierung (Tagging) syntaktische Analyse (Parsing) semantische Lesartendisambiguierung (z.b. Bank 1 vs. Bank 2) maschinelle Übersetzung 15 / 19

Text corpus Definition A corpus (plural corpora) or text corpus is a large and structured set of texts, nowadays usually electronically stored and processed. Corpora are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). (from Wikipedia) 16 / 19

Kleine Geschichte der Computerlinguistik (1) frühe Entwicklung der Computertechnologie (1930er-, 40er-Jahre): numerische Problemstellungen ( Berechnungen, z.b. ballistische Kurven), auch symbolische Verarbeitungsaufgaben (Dechiffrierung verschlüsselter Nachrichtentexte maschinelle Übersetzung (MÜ) als Spezialfall einer Dekodierungsaufgabe) frühe Ansätze der MÜ haben gemeinsame Wurzel: stochastische Informationstheorie (Betrachtung des fremdsprachlichen Textes als Ergebnis der Übertragung einer Nachricht über gestörten Kanal Aufgabe: Rekonstruktion des ursprünglichen Nachrichtentextes) Statistische Verfahren wurden dann für Jahrzehnte aufgegeben. 17 / 19

Kleine Geschichte der Computerlinguistik (2) Aufgabe von statistischen Verfahren weil Chomsky die Unzulänglichkeit der statistischen Verfahren der 50er und 60er für Sprachmodellierung nachweist. die Leistungsfähigkeit der damaligen Hardware nicht ausreichte (Beschränkungen bevorzugen symbolische Ansätze) 18 / 19

Literatur und Links Jurafsky & Martin: Speech and Language Processing. Pearson Prentice Hall. 2008. Manning & Schütze: Foundations of Statistical Natural Language Processing. MIT Press. 1999. Carstensen et al.: Computerlinguistik und Sprachtechnologie. Eine Einführung. Heidelberg 2010 (3. Auflage) elektronische Version beim EasyProxy der Universitätsbibliothek: https://login.easyproxy.ub.uni-muenchen.de/login 19 / 19