Computerlinguistik und Sprachtechnologie

Ähnliche Dokumente
Computerlinguistik und Sprachtechnologie

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

NLP - Analyse des Wissensrohstoffs Text

Was ist Statistik? Wozu dienen statistische Methoden?

8 Fakultät für Philologie

Einführung in die maschinelle Sprachverarbeitung

VO Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft

Maschinelle Sprachverarbeitung

Sprachverstehen. Vorlesung an der TU Chemnitz Wintersemester 2012/2013 Dr. Johannes Steinmüller

NLP Eigenschaften von Text

Modulhandbuch. für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester (Version: )

Auswahlbibliographie zum Studium der anglistischen Sprachwissenschaft

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung

Informationsveranstaltung Linguistische Informatik & Korpuslinguistik

Einführung Computerlinguistik. Überblick

Angewandte Linguistik IUED Institut für Übersetzen und Dolmetschen Sprachtechnologie für die mehrsprachige Kommunikation

Einführung in die Künstliche Intelligenz

Verlässlicher Grammatik-Transfer

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

Logik für Informatiker

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Theoretische Informatik

Einführung in die Computerlinguistik Überblick

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation

Einführung in die Computerlinguistik

QUALIA STRUKTUR NACH PUSTEJOVSKY

Übersicht über 1. Vorlesungsabschnitt Form und Darstellung von Informationen

Einführung in die Computerlinguistik

Geleitwort Danksagung Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis Zusammenfassung...

Praktische Informatik I

Wieviel Computerlinguistik braucht der Word-Anwender?

Einführung in die Phonetik und Phonologie. Allgemeiner Überblick

Information Retrieval and Semantic Technologies


Einsatz elektronischer Kommunikationshilfen bei Aphasie

Einführung in die Computerlinguistik

Automatische Verb-Klassifikation unter Einbezug linguistischer Kriterien und semantischer Assoziationsdaten

Johannes Christian Panitz

Spracherkennung. Gliederung:

Einführung in die Computerlinguistik Statistische Grundlagen

Korpus. Was ist ein Korpus?

INFORMATIONSEXTRAKTION

Einführung in die Computerlinguistik

Universität Bamberg Angewandte Informatik. Seminar KI: gestern, heute, morgen. Natural Language Processing and Machine Learning

Einführung in die portugiesische Sprachwissenschaft

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

V1/2.S Sprachwissenschaft

Phraseologismen im Wörterbuch und im deutschen und tschechischen Sprachgebrauch

Informationsextraktion. Karin Haenelt

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN

Logik. Vorlesung im Wintersemester 2010

Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen -

Mit Computerlinguistik und Sprachtechnologie in die Zukunft: Die Technik

Elementare statistische Methoden

Narrative Kompetenz in der Fremdsprache Englisch

Annika Schudak. Nutzergenerierte. Produktbewertungen im Web 2.0. Eine verbraucherpolitische Betrachtung

Theoretische Informatik 2 bzw. Formale Sprachen und Berechenbarkeit. Sommersemester Herzlich willkommen!

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)

Wesentliche Methoden der Computerlinguistik. Peter Kolb Einführung in die Computerlinguistik Sommersemester 2012

Semantic Web: Das Web der nächsten Generation

Volltextsuche und Text Mining

Java Web Services in der Praxis

Phraseologie. Eine Einfuhrung am Beispiel des Deutschen ERICH SCHMIDT VERLAG. von Harald Burger. 2., überarbeitete Auflage

Einleitung. Analyse und Synthese gesprochener Sprache Rechtschreibkorrektur

Auszug aus dem Studienprogramm des Fachbereichs für Deutsche Sprache und Literatur

Christof Obermann. Assessment Center. Entwicklung, Durchführung, Trends. Mit originalen AC-Übungen. 3. Auflage GABLER

Einführung in die Computerlinguistik. Semantik

Prüfungsordnung der Universität Heidelberg für den Bachelor-Studiengang Besonderer Teil Theoretische und Angewandte Computerlinguistik

1 Inhaltsverzeichnis. 1 Einführung...1

Semantik: Semantik von Merkmalsstrukturen

Inhalt und Typen von Korpora. Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es

Aktuelle Forschungsfragen der Phraseodidaktik

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik

2. Der Competence based view als theoretische Grundlage Wertschöpfung durch Business Transformation Outsourcing 105

Einführung in die Computerlinguistik. Dialogsysteme. Wozu Dialogsysteme? Der sprechende Fahrstuhl (1) Der sprechende Fahrstuhl (5)

Mathematica kompakt. Einführung-Funktionsumfang-Praxisbeispiele von Dipl.-Math.Christian H.Weiß. Oldenbourg Verlag München

Logic in a Nutshell. Christian Liguda

Transkript:

Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer ELSEVIER SPEKTRUM AKADEMISCHER VERLAG

Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computerlinguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3 Teilbereiche der Computerlinguistik 6 1.1.4 Theoretische Computerlinguistik 8 1.1.5 Wissensbereiche 10 1.1.6 Industrielle Anwendungen 12 1.1.7 Berufsfelder für Computerlinguisten 14 1.1.8 Literaturhinweise 15 1.2 Zur Geschichte der Computerlinguistik 16 1.2.1 Symbolische Sprachverarbeitung 17 1.2.2 Korpusstatistische Verfahren 19 1.2.3 Anwendungen der Computerlinguistik 21 2 Formale Grundlagen 25 2.1 Mengenlehre und Logik 26 2.1.1 Mengenlehre 26 2.1.2 Aussagenlogik 31 2.1.3 Prädikatenlogik 43 2.1.4 Typenlogik 50 2.1.5 Der Lambda-Kalkül 57 2.1.6 Literaturhinweise 62 2.2 Automatentheorie und Formale Sprachen 63 2.2.1 Grundlegende Definitionen 63 2.2.2 Grammatiken 64 2.2.3 Endliche Automaten, einseitig-lineare Grammatiken und reguläre Sprachen 67 2.2.4 Kontextfreie Sprachen und Grammatiken 77 2.2.5 Nicht-kontextfreie Sprachen und Grammatiken 81 2.2.6 Komplexitäts- und Entscheidbarkeitseigenschaften... 87 2.2.7 Zusammenfassung 89 2.2.8 Literaturhinweise 90 2.3 Graphentheorie und Merkmalsstrukturen 91 2.3.1 Graphen und Bäume 91 2.3.2 Merkmalsstrukturen 94

x Inhaltsverzeichnis 2.3.3 Unifikation 100 2.3.4 Generalisierung 103 2.3.5 Typisierte Merkmalsstrukturen 105 2.3.6 Literaturhinweise 110 2.4 Wahrscheinlichkeitstheorie und HMMs 111 2.4.1 Wahrscheinlichkeitstheoretische Grundlagen 111 2.4.2 Hidden-Markov-Modelle 122 2.4.3 Literaturhinweise 137 2.5 Texttechnologische Grundlagen 138 2.5.1 HTML - Hypertext Markup Language 139 2.5.2 XML - Extensible Markup Language 140 2.5.3 Verarbeitung XML-annotierter Daten 142 2.5.4 Texttechnologie und Computerlinguistik 145 2.5.5 Literaturhinweise 146 3 Methoden 149 3.1 Phonologie 150 3.1.1 Probleme und Terminologie 151 3.1.2 Methoden 161 3.1.3 Literaturhinweise 188 3.2 Morphologie 190 3.2.1 Überblick 190 3.2.2 Grundbegriffe und -probleme 190 3.2.3 Modelle aus der Generativen Linguistik 194 3.2.4 Morphologie mit endlichen Automaten 198 3.2.5 Default-Vererbungsnetze: DATR 205 3.2.6 Erweiterte Finite-State-Ansätze 211 3.2.7 Morphologie und generative Kapazität 216 3.2.8 Zusammenfassung und Ausblick 217 3.2.9 Literaturhinweise 217 3.3 Flache Satzverarbeitung 218 3.3.1 Tokenisierung 218 3.3.2 Wortart-Tagging 224 3.3.3 Chunk-Parsing 228 3.3.4 Literaturhinweise 230 3.4 Syntax und Parsing 232 3.4.1 Syntax 233 3.4.2 Parsing 252 3.4.3 Literaturhinweise 274 3.5 Semantik 276 3.5.1 Grundlagen der natürlichsprachlichen Semantik 278 3.5.2 Montague-Semantik 284 3.5.3 Theorie der generalisierten Quantoren 298 3.5.4 Diskursrepräsentationstheorie 302 3.5.5 Ansätze zur Unterspezifikation 313 3.5.6 Lexikalische Semantik 319

Inhaltsverzeichnis XI 3.5.7 Literaturhinweise 332 3.6 Pragmatik 333 3.6.1 Text, Diskurs und Dialog 335 3.6.2 Anaphernresolution 339 3.6.3 Präsuppositionsverarbeitung 348 3.6.4 Fokus 354 3.6.5 Benutzermodellierung 360 3.7 Textgenerierung 375 3.7.1 Aufgaben der Planung und Umsetzung 376 3.7.2 Funktionalität des Planungsprozesses 379 3.7.3 Methoden zur Diskursplanung 385 3.7.4 Satzplanungsverfahren 393 3.7.5 Verfahren zur Oberflächenrealisierung 398 3.7.6 Linguistische Theorien zur Generierung 400 3.7.7 Literaturhinweise 403 Ressourcen 405 4.1 Textkorpora 406 4.1.1 Korpustypen und ihre Zusammensetzung 406 4.1.2 Erstellung von Korpora 407 4.1.3 Korpusrepräsentation 409 4.1.4 Hinzufügen von linguistischer Information 410 4.1.5 Abfragesysteme für Textkorpora 412 4.1.6 Literaturhinweise 413 4.2 Baumbanken 414 4.2.1 Zentrale Eigenschaften von Baumbanken 414 4.2.2 Die Penn Treebank 416 4.2.3 Das TIGER-Korpus 418 4.2.4 Literaturhinweise 422 4.3 Lexikalisch-semantische Wortnetze 423 4.3.1 GermaNet - ein deutsches Wortnetz 424 4.3.2 EuroWordNet, ein polylinguales Wortnetz 427 4.3.3 Anwendungsperspektiven semantischer Netze im NLP.. 429 4.3.4 Literaturhinweise 430 4.4 Lexika für multimodale Systeme 432 4.4.1 Wörterbuch, Lexikon, oder Enzyklopädie? 432 4.4.2 Die Lexikonbaumeister 433 4.4.3 Eigenschaften eines Lexikons 435 4.4.4 Schritte im Lexikonaufbau 437 4.4.5 Literaturhinweise 438 4.5 Sprachdatenbanken 440 4.5.1 Definition 440 4.5.2 Signaldaten 441 4.5.3 Symbolische Daten 442 4.5.4 Urherberrechte, Nutzung und Distribution 444 4.5.5 Software 445

xii Inhaltsverzeichnis 4.5.6 Beispiele: Verbmobil und SpeechDat-II 446 4.5.7 Literaturhinweise 447 4.6 Nicht-sprachliches Wissen 448 4.6.1 Die Relevanz nicht-sprachlichen Wissens für die CL... 448 4.6.2 Wissen und Wissensrepräsentation 449 4.6.3 Aspekte derwissensrepräsentation 450 4.6.4 Wissensrepräsentation für die CL 452 4.6.5 Literaturhinweise 454 4.7 Das World Wide Web 455 4.7.1 Technologische Grundlagen 455 4.7.2 Das WWW als computerlinguistische Ressource 456 4.7.3 Das Semantic Web 460 4.7.4 Literaturhinweise 460 5 Anwendungen 461 5.1 Korrekturprogramme 463 5.1.1 Korrektur von Nicht-Wörtern 464 5.1.2 Kontextabhängige Korrektur 466 5.1.3 Grammatikkorrektur 468 5.1.4 Perspektiven 469 5.1.5 Literaturhinweise 470 5.2 Computergestützte Lexikographie und Terminologie 471 5.2.1 Aufgaben und Aspekte der computergestützten Lexikographie 472 5.2.2 Lexikographiesysteme 476 5.2.3 Computational Terminology 476 5.2.4 Stand und Perspektiven 478 5.2.5 Literaturhinweise 478 5.3 Volltextsuche und Text Mining 479 5.3.1 Volltextsuche 481 5.3.2 Text Mining 488 5.3.3 Literaturhinweise 494 5.4 Textklassifikation 496 5.4.1 Generische System-Architektur 496 5.4.2 Verschiedene technologische Lösungsansätze 497 5.4.3 Evaluierung von Textklassifikations-Systemen 500 5.4.4 Stand der Technik 500 5.4.5 Perspektiven 501 5.4.6 Literaturhinweise 501 5.5 Informationsextraktion 502 5.5.1 Ein Beispiel 503 5.5.2 Evaluationskriterien für IE 504 5.5.3 Ein generisches IE-System 505 5.5.4 Maschinelle Lernverfahren für IE 507 5.5.5 Literaturhinweise 509 5.6 Textzusammenfassung 511

Inhaltsverzeichnis XIII 5.6.1 Wissensverarbeitende Systeme 512 5.6.2 Statistische Verfahren 514 5.6.3 Literaturhinweise 516 5.7 Sprachsynthesesysteme 517 5.7.1 Struktur eines TTS-Systems 517 5.7.2 Computerlinguistische TTS-Komponenten 518 5.7.3 Ein einheitlicher Formalismus 521 5.7.4 Perspektiven 522 5.7.5 Literaturhinweise 523 5.8 Spracherkennungssysteme 524 5.8.1 Struktur eines automatischen Spracherkenners 524 5.8.2 Paradigma der Spracherkennung: HMM 526 5.8.3 Modellierung gesprochener Sprache 527 5.8.4 Perspektiven und Herausforderungen 530 5.8.5 Literaturhinweise 531 5.9 Dialogsysteme 532 5.9.1 Anwendungsgebiete 532 5.9.2 Evolution von Dialogsystemen 533 5.9.3 Komponenten eines Dialogsystems 535 5.9.4 Multimodale Dialogsysteme 538 5.9.5 Design von Dialogsystemen 539 5.9.6 Literaturhinweise 539 5.10 Sprachlehr- und -lernsysteme 540 5.10.1 Herkömmliche Sprachlehrprogramme 541 5.10.2 ICALL-Systeme 542 5.10.3 Fazit 546 5.11 Elektronische Kommunikationshilfen 547 5.11.1 Typen von Kommunikationshilfen 547 5.11.2 Kommunikationshilfen mit Sprach- oder Textausgabe... 548 5.11.3 Perspektiven 552 5.11.4 Literaturhinweise 552 5.12 Angewandte natürlichsprachliche Generierungs- und Auskunftsysteme 554 5.12.1 Was ist angewandte NLG? 555 5.12.2 Beispiele für angewandte NLG-Systeme 556 5.12.3 Mechanismen und Methoden 558 5.12.4 Perspektiven 560 5.12.5 Literaturhinweise 562 5.13 Maschinelle und computergestützte Übersetzung 563 5.13.1 MÜ-Ansätze 565 5.13.2 Computergestützte Übersetzung - CAT 569 5.13.3 Aktueller Stand und Perspektiven 570 5.13.4 Literaturhinweise 571

xiv Inhaltsverzeichnis 6 Evaluation sprachverarbeitender Systeme 573 6.1 Einführung 573 6.1.1 Warum wird evaluiert? 573 6.1.2 Wie wird evaluiert? 574 6.1.3 Was wird evaluiert? 576 6.2 Akustische Evaluation 577 6.2.1 Motivation 578 6.2.2 Spracherkennung 579 6.2.3 Methoden und Maße 581 6.2.4 Diskussion 582 6.3 Evaluation eines Dolmetschsystems 585 6.3.1 Das VERBMOBIL System 585 6.3.2 Spezifikation der Anforderungen 585 6.3.3 Durchführung der Evaluation 587 6.3.4 Ergebnisse 588 6.4 Fazit 590 6.5 Literaturhinweise 590 Literaturverzeichnis 591 Index 625 Die Autorinnen und Autoren 641