Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag Heidelberg Berlin
vii Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Zur Geschichte der Computerlinguistik 1 1.1.1 Symbolische Sprachverarbeitung 3 1.1.2 Korpusstatistische Verfahren 4 1.1.3 Anwendungen der Computerlinguistik 6 1.2 Aspekte der Computerlinguistik 10 1.2.1 Computerlinguistik: Die Wissenschaft 10 1.2.2 Computerlinguistik und ihre Nachbardisziplinen 11 1.2.3 Teilbereiche der Computerlinguistik 14 1.2.4 Wissensbereiche 15 1.2.5 Industrielle Anwendungen 18 1.2.6 Theoretische Forschung in der Computerlinguistik... 20 1.2.7 Praktische Forschung in der Computerlinguistik 21 1.2.8 Computerlinguistik und Linguistik 22 1.2.9 Literaturhinweise 23 2 Formale Grundlagen 25 2.1 Mengenlehre und Logik 26 2.1.1 Mengenlehre 26 2.1.2 Aussagenlogik 31 2.1.3 Prädikatenlogik 37 2.1.4 Typenlogik 45 2.1.5 Der Lambda-Kalkül 52 2.1.6 Modaloperatoren 57 2.1.7 Literaturhinweise 58 2.2 Automatentheorie und Formale Sprachen 59 2.2.1 Grundlegende Definitionen 59 2.2.2 Grammatiken 60 2.2.3 Endliche Automaten, einseitig-lineare Grammatiken und reguläre Sprachen 63 2.2.4 Kontextfreie Sprachen und Grammatiken 72 2.2.5 Nicht-kontextfreie Sprachen und Grammatiken 77 2.2.6 Komplexitäts- und Entscheidbarkeitseigenschaften... 82 2.2.7 Zusammenfassung 85 2.2.8 Literaturhinweise 85 2.3 Graphentheorie und Merkmalsstrukturen 87 2.3.1 Graphen und Bäume 87 2.3.2 Merkmalsstrukturen 90 2.3.3 Unifikation 95 2.3.4 Generalisierung 98 2.3.5 Typisierte Merkmalsstrukturen 101 2.3.6 Literaturhinweise 106 2.4 Wahrscheinlichkeitstheorie und Hidden-Markov-Modelle 107
viii Inhaltsverzeichnis 2.4.1 Wahrscheinlichkeitstheoretische Grundlagen 107 2.4.2 Hidden-Markov-Modelle 117 2.4.3 Literaturhinweise 132 3 Methoden 135 3.1 Phonologie 136 3.1.1 Probleme und Terminologie 137 3.1.2 Methoden 147 3.1.3 Literaturhinweise 174 3.2 Morphologie 175 3.2.1 Überblick 175 3.2.2 Grundbegriffe und -Probleme 175 3.2.3 Modelle aus der Generativen Linguistik 179 3.2.4 Morphologie mit endlichen Automaten 183 3.2.5 Default-Vererbungsnetze: DATR 190 3.2.6 Erweiterte Finite-State-Ansätze 196 3.2.7 Morphologie und generative Kapazität 201 3.2.8 Zusammenfassung und Ausblick 202 3.2.9 Literaturhinweise 202 3.3 Syntax und Parsing 203 3.3.1 Syntax 204 3.3.2 Parsing 223 3.3.3 Literaturhinweise 245 3.4 Semantik 246 3.4.1 Grundlagen der natürlichsprachlichen Semantik 248 3.4.2 Montague-Semantik 254 3.4.3 Theorie der generalisierten Quantoren 268 3.4.4 Diskursrepräsentationstheorie 272 3.4.5 Ansätze zur Unterspezifikation 284 3.4.6 Lexikalische Semantik 290 3.4.7 Literaturhinweise 303 3.5 Diskurs und Pragmatik 305 3.5.1 Präsuppositionsverarbeitung 306 3.5.2 Benutzermodellierung 316 3.6 Textgenerierung 331 3.6.1 Aufgaben der Planung und Umsetzung 332 3.6.2 Funktionalität des Planungsprozesses 335 3.6.3 Methoden zur Diskursplanung 341 3.6.4 Satzplanungsverfahren 350 3.6.5 Verfahren zur Oberflächenrealisierung 355 3.6.6 Linguistische Theorien zur Generierung 357 3.6.7 Literaturhinweise 360
ix 4 Ressourcen 361 4.1 Das World Wide Web 362 4.1.1 Markup-Sprachen als Fundament des WWW 362 4.1.2 Der computerlinguistische Einsatz von SGML/XML... 365 4.1.3 Computerlinguistik, XML und das WWW 366 4.1.4 Computerlinguistik und das Semantic Web 367 4.1.5 Literaturhinweise 368 4.2 Textkorpora 369 4.2.1 Korpustypen und ihre Zusammensetzung 369 4.2.2 Erstellung von Korpora 370 4.2.3 Korpusrepräsentation 372 4.2.4 Hinzufügen von linguistischer Information 373 4.2.5 Abfragesysteme für Textkorpora 375 4.3 Baumbanken 377 4.3.1 Zentrale Eigenschaften von Baumbanken 377 4.3.2 Die Penn Treebank 379 4.3.3 Das TIGER Korpus 381 4.3.4 Literaturhinweise 384 4.4 Lexikalisch-semantische Wortnetze 386 4.4.1 GermaNet - ein deutsches Wortnetz 387 4.4.2 EuroWordNet, ein polylinguales Wortnetz 390 4.4.3 Anwendungsperspektiven semantischer Netze 392 4.4.4 Literaturhinweise 393 4.5 Lexika für multimodale Systeme 394 4.5.1 Wörterbuch, Lexikon, oder Enzyklopädie? 394 4.5.2 Die Lexikonbaumeister 395 4.5.3 Eigenschaften eines Lexikons 397 4.5.4 Schritte im Lexikonaufbau 399 4.5.5 Wie geht's weiter? 400 4.6 Sprachdatenbanken 402 4.6.1 Definitionen 402 4.6.2 Sprachdatenbanken 403 4.6.3 Software 406 4.6.4 Beispiele: Verbmobil und SpeechDat-II 407 4.6.5 Literaturhinweise 408 5 Anwendungen 409 5.1 Korrekturprogramme 411 5.1.1 Korrektur von Nicht-Wörtern 412 5.1.2 Kontextabhängige Korrektur 413 5.1.3 Grammatikkorrektur 414 5.1.4 Perspektiven 416 5.1.5 Literaturhinweise 417 5.2 Computergestützte Lexikographie 418 5.2.1 Aufgaben und Aspekte der computergestützten Lexikographie 419
5.2.2 Lexikographiesysteme 422 5.2.3 Computational Terminology 423 5.2.4 Stand und Perspektiven 423 5.2.5 Literaturhinweise 424 5.3 Volltextsuche und Text Mining 425 5.3.1 Volltextsuche 427 5.3.2 Text Mining 434 5.3.3 Literaturhinweise 441 5.4 Textklassifikation 442 5.4.1 Generische System-Architektur 442 5.4.2 Verschiedene technologische Lösungsansätze 443 5.4.3 Evaluierung von Textklassifikations-Systemen 446 5.4.4 Stand der Technik 446 5.4.5 Perspektiven 447 5.4.6 Literaturhinweise 447 5.5 Informationsextraktion 448 5.5.1 Ein Beispiel 449 5.5.2 Evaluationskriterien für IE 450 5.5.3 Ein generisches IE-System 451 5.5.4 Maschinelle Lernverfahren für IE 453 5.6 Textzusammenfassung 456 5.6.1 Wissensverarbeitende Systeme 457 5.6.2 Statistische Verfahren 460 5.6.3 Aktuelle Entwicklung 461 5.7 Sprachsynthesesysteme 462 5.7.1 Struktur eines TTS-Systems 462 5.7.2 Computerlinguistische TTS-Komponenten 463 5.7.3 Ein einheitlicher Formalismus 466 5.7.4 Perspektiven 467 5.7.5 Literaturhinweise 468 5.8 Spracherkennungssysteme 469 5.8.1 Struktur eines automatischen Spracherkenners 469 5.8.2 Paradigma der Spracherkennung: HMM 471 5.8.3 Modellierung gesprochener Sprache 472 5.8.4 Perspektiven und Herausforderungen 475 5.8.5 Literaturhinweise 476 5.9 Natürlichsprachliche Retrieval-Schnittstellen 477 5.9.1 Eigenschaften von Anfragesprachen 477 5.9.2 Systeme 479 5.9.3 Wirkung auf den Benutzer 481 5.9.4 Perspektiven 482 5.9.5 Literaturhinweise 482 5.10 Dialogsysteme 484 5.10.1 Anwendungsgebiete 484 5.10.2 Evolution von Dialogsystemen 485 5.10.3 Aufbau eines Dialogsystems 485
xi 5.10.4 Multimodale Dialogsysteme 489 5.10.5 Design von Dialogsystemen 490 5.10.6 Literaturhinweise 491 5.11 Sprachlehr- und -lernsysteme 492 5.11.1 Herkömmliche Sprachlehrprogramme 492 5.11.2 ICALL-Systeme 493 5.11.3 Fazit 498 5.12 Elektronische Kommunikationshilfen 499 5.12.1 Typen von Kommunikationshilfen 499 5.12.2 Kommunikationshilfen mit Sprach- oder Textausgabe.. 500 5.12.3 Perspektiven 504 5.12.4 Literaturhinweise 504 5.13 Angewandte natürlichsprachliche Generierungs- und Auskunftssysteme 506 5.13.1 Was ist angewandte NLG? 507 5.13.2 Beispiele für angewandte NLG-Systeme 507 5.13.3 Mechanismen und Methoden 509 5.13.4 Perspektiven 512 5.13.5 Literaturhinweise 513 5.14 Maschinelle Übersetzung 514 5.14.1 MÜ-Ansätze 515 5.14.2 Aktueller Stand und Perspektiven 520 5.14.3 Literaturhinweise 521 6 Evaluation sprachverarbeitender Systeme 523 6.1 Einführung 523 6.1.1 Warum wird evaluiert? 523 6.1.2 Wie wird evaluiert? 524 6.1.3 Was wird evaluiert? 526 6.2 Akustische Evaluation 527 6.2.1 Motivation 528 6.2.2 Spracherkennung 528 6.2.3 Methoden und Maße 531 6.2.4 Diskussion 533 6.3 Evaluation eines Dolmetschsystems 535 6.3.1 Das VERBMOBIL System 535 6.3.2 Spezifikation der Anforderungen 536 6.3.3 Durchführung der Evaluation 537 6.3.4 Ergebnisse 539 6.4 Fazit 540 Literaturverzeichnis 541 Index 567 Die Autorinnen und Autoren 579