Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer ELSEVIER SPEKTRUM AKADEMISCHER VERLAG
Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computerlinguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3 Teilbereiche der Computerlinguistik 6 1.1.4 Theoretische Computerlinguistik 8 1.1.5 Wissensbereiche 10 1.1.6 Industrielle Anwendungen 12 1.1.7 Berufsfelder für Computerlinguisten 14 1.1.8 Literaturhinweise 15 1.2 Zur Geschichte der Computerlinguistik 16 1.2.1 Symbolische Sprachverarbeitung 17 1.2.2 Korpusstatistische Verfahren 19 1.2.3 Anwendungen der Computerlinguistik 21 2 Formale Grundlagen 25 2.1 Mengenlehre und Logik 26 2.1.1 Mengenlehre 26 2.1.2 Aussagenlogik 31 2.1.3 Prädikatenlogik 43 2.1.4 Typenlogik 50 2.1.5 Der Lambda-Kalkül 57 2.1.6 Literaturhinweise 62 2.2 Automatentheorie und Formale Sprachen 63 2.2.1 Grundlegende Definitionen 63 2.2.2 Grammatiken 64 2.2.3 Endliche Automaten, einseitig-lineare Grammatiken und reguläre Sprachen 67 2.2.4 Kontextfreie Sprachen und Grammatiken 77 2.2.5 Nicht-kontextfreie Sprachen und Grammatiken 81 2.2.6 Komplexitäts- und Entscheidbarkeitseigenschaften... 87 2.2.7 Zusammenfassung 89 2.2.8 Literaturhinweise 90 2.3 Graphentheorie und Merkmalsstrukturen 91 2.3.1 Graphen und Bäume 91 2.3.2 Merkmalsstrukturen 94
x Inhaltsverzeichnis 2.3.3 Unifikation 100 2.3.4 Generalisierung 103 2.3.5 Typisierte Merkmalsstrukturen 105 2.3.6 Literaturhinweise 110 2.4 Wahrscheinlichkeitstheorie und HMMs 111 2.4.1 Wahrscheinlichkeitstheoretische Grundlagen 111 2.4.2 Hidden-Markov-Modelle 122 2.4.3 Literaturhinweise 137 2.5 Texttechnologische Grundlagen 138 2.5.1 HTML - Hypertext Markup Language 139 2.5.2 XML - Extensible Markup Language 140 2.5.3 Verarbeitung XML-annotierter Daten 142 2.5.4 Texttechnologie und Computerlinguistik 145 2.5.5 Literaturhinweise 146 3 Methoden 149 3.1 Phonologie 150 3.1.1 Probleme und Terminologie 151 3.1.2 Methoden 161 3.1.3 Literaturhinweise 188 3.2 Morphologie 190 3.2.1 Überblick 190 3.2.2 Grundbegriffe und -probleme 190 3.2.3 Modelle aus der Generativen Linguistik 194 3.2.4 Morphologie mit endlichen Automaten 198 3.2.5 Default-Vererbungsnetze: DATR 205 3.2.6 Erweiterte Finite-State-Ansätze 211 3.2.7 Morphologie und generative Kapazität 216 3.2.8 Zusammenfassung und Ausblick 217 3.2.9 Literaturhinweise 217 3.3 Flache Satzverarbeitung 218 3.3.1 Tokenisierung 218 3.3.2 Wortart-Tagging 224 3.3.3 Chunk-Parsing 228 3.3.4 Literaturhinweise 230 3.4 Syntax und Parsing 232 3.4.1 Syntax 233 3.4.2 Parsing 252 3.4.3 Literaturhinweise 274 3.5 Semantik 276 3.5.1 Grundlagen der natürlichsprachlichen Semantik 278 3.5.2 Montague-Semantik 284 3.5.3 Theorie der generalisierten Quantoren 298 3.5.4 Diskursrepräsentationstheorie 302 3.5.5 Ansätze zur Unterspezifikation 313 3.5.6 Lexikalische Semantik 319
Inhaltsverzeichnis XI 3.5.7 Literaturhinweise 332 3.6 Pragmatik 333 3.6.1 Text, Diskurs und Dialog 335 3.6.2 Anaphernresolution 339 3.6.3 Präsuppositionsverarbeitung 348 3.6.4 Fokus 354 3.6.5 Benutzermodellierung 360 3.7 Textgenerierung 375 3.7.1 Aufgaben der Planung und Umsetzung 376 3.7.2 Funktionalität des Planungsprozesses 379 3.7.3 Methoden zur Diskursplanung 385 3.7.4 Satzplanungsverfahren 393 3.7.5 Verfahren zur Oberflächenrealisierung 398 3.7.6 Linguistische Theorien zur Generierung 400 3.7.7 Literaturhinweise 403 Ressourcen 405 4.1 Textkorpora 406 4.1.1 Korpustypen und ihre Zusammensetzung 406 4.1.2 Erstellung von Korpora 407 4.1.3 Korpusrepräsentation 409 4.1.4 Hinzufügen von linguistischer Information 410 4.1.5 Abfragesysteme für Textkorpora 412 4.1.6 Literaturhinweise 413 4.2 Baumbanken 414 4.2.1 Zentrale Eigenschaften von Baumbanken 414 4.2.2 Die Penn Treebank 416 4.2.3 Das TIGER-Korpus 418 4.2.4 Literaturhinweise 422 4.3 Lexikalisch-semantische Wortnetze 423 4.3.1 GermaNet - ein deutsches Wortnetz 424 4.3.2 EuroWordNet, ein polylinguales Wortnetz 427 4.3.3 Anwendungsperspektiven semantischer Netze im NLP.. 429 4.3.4 Literaturhinweise 430 4.4 Lexika für multimodale Systeme 432 4.4.1 Wörterbuch, Lexikon, oder Enzyklopädie? 432 4.4.2 Die Lexikonbaumeister 433 4.4.3 Eigenschaften eines Lexikons 435 4.4.4 Schritte im Lexikonaufbau 437 4.4.5 Literaturhinweise 438 4.5 Sprachdatenbanken 440 4.5.1 Definition 440 4.5.2 Signaldaten 441 4.5.3 Symbolische Daten 442 4.5.4 Urherberrechte, Nutzung und Distribution 444 4.5.5 Software 445
xii Inhaltsverzeichnis 4.5.6 Beispiele: Verbmobil und SpeechDat-II 446 4.5.7 Literaturhinweise 447 4.6 Nicht-sprachliches Wissen 448 4.6.1 Die Relevanz nicht-sprachlichen Wissens für die CL... 448 4.6.2 Wissen und Wissensrepräsentation 449 4.6.3 Aspekte derwissensrepräsentation 450 4.6.4 Wissensrepräsentation für die CL 452 4.6.5 Literaturhinweise 454 4.7 Das World Wide Web 455 4.7.1 Technologische Grundlagen 455 4.7.2 Das WWW als computerlinguistische Ressource 456 4.7.3 Das Semantic Web 460 4.7.4 Literaturhinweise 460 5 Anwendungen 461 5.1 Korrekturprogramme 463 5.1.1 Korrektur von Nicht-Wörtern 464 5.1.2 Kontextabhängige Korrektur 466 5.1.3 Grammatikkorrektur 468 5.1.4 Perspektiven 469 5.1.5 Literaturhinweise 470 5.2 Computergestützte Lexikographie und Terminologie 471 5.2.1 Aufgaben und Aspekte der computergestützten Lexikographie 472 5.2.2 Lexikographiesysteme 476 5.2.3 Computational Terminology 476 5.2.4 Stand und Perspektiven 478 5.2.5 Literaturhinweise 478 5.3 Volltextsuche und Text Mining 479 5.3.1 Volltextsuche 481 5.3.2 Text Mining 488 5.3.3 Literaturhinweise 494 5.4 Textklassifikation 496 5.4.1 Generische System-Architektur 496 5.4.2 Verschiedene technologische Lösungsansätze 497 5.4.3 Evaluierung von Textklassifikations-Systemen 500 5.4.4 Stand der Technik 500 5.4.5 Perspektiven 501 5.4.6 Literaturhinweise 501 5.5 Informationsextraktion 502 5.5.1 Ein Beispiel 503 5.5.2 Evaluationskriterien für IE 504 5.5.3 Ein generisches IE-System 505 5.5.4 Maschinelle Lernverfahren für IE 507 5.5.5 Literaturhinweise 509 5.6 Textzusammenfassung 511
Inhaltsverzeichnis XIII 5.6.1 Wissensverarbeitende Systeme 512 5.6.2 Statistische Verfahren 514 5.6.3 Literaturhinweise 516 5.7 Sprachsynthesesysteme 517 5.7.1 Struktur eines TTS-Systems 517 5.7.2 Computerlinguistische TTS-Komponenten 518 5.7.3 Ein einheitlicher Formalismus 521 5.7.4 Perspektiven 522 5.7.5 Literaturhinweise 523 5.8 Spracherkennungssysteme 524 5.8.1 Struktur eines automatischen Spracherkenners 524 5.8.2 Paradigma der Spracherkennung: HMM 526 5.8.3 Modellierung gesprochener Sprache 527 5.8.4 Perspektiven und Herausforderungen 530 5.8.5 Literaturhinweise 531 5.9 Dialogsysteme 532 5.9.1 Anwendungsgebiete 532 5.9.2 Evolution von Dialogsystemen 533 5.9.3 Komponenten eines Dialogsystems 535 5.9.4 Multimodale Dialogsysteme 538 5.9.5 Design von Dialogsystemen 539 5.9.6 Literaturhinweise 539 5.10 Sprachlehr- und -lernsysteme 540 5.10.1 Herkömmliche Sprachlehrprogramme 541 5.10.2 ICALL-Systeme 542 5.10.3 Fazit 546 5.11 Elektronische Kommunikationshilfen 547 5.11.1 Typen von Kommunikationshilfen 547 5.11.2 Kommunikationshilfen mit Sprach- oder Textausgabe... 548 5.11.3 Perspektiven 552 5.11.4 Literaturhinweise 552 5.12 Angewandte natürlichsprachliche Generierungs- und Auskunftsysteme 554 5.12.1 Was ist angewandte NLG? 555 5.12.2 Beispiele für angewandte NLG-Systeme 556 5.12.3 Mechanismen und Methoden 558 5.12.4 Perspektiven 560 5.12.5 Literaturhinweise 562 5.13 Maschinelle und computergestützte Übersetzung 563 5.13.1 MÜ-Ansätze 565 5.13.2 Computergestützte Übersetzung - CAT 569 5.13.3 Aktueller Stand und Perspektiven 570 5.13.4 Literaturhinweise 571
xiv Inhaltsverzeichnis 6 Evaluation sprachverarbeitender Systeme 573 6.1 Einführung 573 6.1.1 Warum wird evaluiert? 573 6.1.2 Wie wird evaluiert? 574 6.1.3 Was wird evaluiert? 576 6.2 Akustische Evaluation 577 6.2.1 Motivation 578 6.2.2 Spracherkennung 579 6.2.3 Methoden und Maße 581 6.2.4 Diskussion 582 6.3 Evaluation eines Dolmetschsystems 585 6.3.1 Das VERBMOBIL System 585 6.3.2 Spezifikation der Anforderungen 585 6.3.3 Durchführung der Evaluation 587 6.3.4 Ergebnisse 588 6.4 Fazit 590 6.5 Literaturhinweise 590 Literaturverzeichnis 591 Index 625 Die Autorinnen und Autoren 641