Computerlinguistik und Sprachtechnologie

Ähnliche Dokumente
Computerlinguistik und Sprachtechnologie

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistik und Sprachtechnologie

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Einführung in die Computerlinguistik

Linguistik mit Schwerpunkt Computerlinguistik / Sprachtechnologie

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

Einführung in die Computerlinguistik. Zusammenfassung

! Die Idee Kombination von Informatik und einem anderen Fach

Grundlagen und Definitionen

8 Fakultät für Philologie

Einführung in die Computerlinguistik Überblick

Übung zur Einführung in die Computerlinguistik. Wiebke Petersen WiSe 04/05

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis

Automatentheorie und formale Sprachen

NLP - Analyse des Wissensrohstoffs Text

Was ist Statistik? Wozu dienen statistische Methoden?

Maschinelle Sprachverarbeitung

Einführung in die Computerlinguistik

Einführung in die maschinelle Sprachverarbeitung

Einführung in die maschinelle Sprachverarbeitung

NLP - Analyse des Wissensrohstoffs Text

Information Retrieval. Peter Kolb

AVS-M Name des Moduls: Sprachtypologie und Universalienforschung

Ausgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW Subject: MTZH

Künstliche Intelligenz

Sammlung Metzler Band 307

Auswahlbibliographie zum Studium der anglistischen Sprachwissenschaft

Modulhandbuch (21. April 2010) Kennzeichnung der genannten Teilbereiche:

Modulhandbuch. für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester (Version: )

Grundkurs Theoretische Informatik

letzte Änderung. Prüfungsordnung der Universität Heidelberg für den Masterstudiengang Besonderer Teil Computerlinguistik

1 XML Hype oder Hoffnung? Einleitung Wie ist dieses Buch aufgebaut?... 3

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Tagger for German. Online BRILL-Tagger für das Deutsche

1. Statistik und Computerlinguistik

Informationsveranstaltung Linguistische Informatik & Korpuslinguistik

Modulhandbuch B.A. Allgemeine Sprachwissenschaft

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung

Präsentationsorientierte Komposition von Service Frontends durch den Endanwender

Sprachverstehen. Vorlesung an der TU Chemnitz Wintersemester 2012/2013 Dr. Johannes Steinmüller

Logische Grundlagen für die Computerlinguistik

VO Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Informationsextraktion mit endlichen Automaten

Einführung in die Computerlinguistik

Teil VIII. Weiterführende Veranstaltungen im FG Wissensverarbeitung

Semantische Netze zur Erfassung und Verarbeitung von. Informationen und Wissen in der Produktentwicklung

Einführung in die Computerlinguistik Einführung

Modulhandbuch: Bachelor of Science Maschinelle Sprachverarbeitung

Syntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M

Theoretische Informatik

Ressourcen in den GSHS... am Beispiel LEXUS

Automatische Textzusammenfasung

Einführung Computerlinguistik. Konstituentensyntax II

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 18/19 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Übersicht Lehrveranstaltungen Dr. Tobias Heinz

Einführung in die Computerlinguistik Einführung

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Semantik. Sarah Bosch,

Modellierung. Prof.Dr. Hans Kleine Büning, Prof.Dr. Johannes Blömer. Paderborn, 6. Februar Universität Paderborn Institut für Informatik

Informationsveranstaltung Linguistische Informatik & Korpuslinguistik

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig

letzte Änderung. Prüfungsordnung der Universität Heidelberg für den Bachelor-Studiengang Besonderer Teil Computerlinguistik

3.0 VU Formale Modellierung

LINGUISTIK SYSTEMATIK DER AUFSTELLUNG

NLP Eigenschaften von Text

Sprachsynthesesysteme

Einführung in die Computerlinguistik Einführung

Sprachanalyse. Fachseminar WS 08/09 Dozent: Prof. Dr. Helmut Weber Referentin: Nadia Douiri

IASK: Computerlinguistik

Einführung in die Linguistik

Einführung in die Computerlinguistik

Geleitwort Danksagung Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis Zusammenfassung...

Jürgen Lesti. Analyse des Anbieterwechsels. mit Hidden-Markov-Modellen. Empirische Untersuchung im Retail Banking. Verlag Dr.

Informationsveranstaltung Linguistische Informatik & Korpuslinguistik

Natürliche Sprache Ambiguität: syntaktisch. Natürliche Sprache Ambiguität: lexikalisch-semantisch. Natürliche Sprache Ambiguität: syntaktisch

Inhaltsverzeichnis. I. Geschichte der Philosophie 1. Inhaltsverzeichnis. Vorwort

Verlässlicher Grammatik-Transfer

Ausgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW Subject: MTZH

Einführung in die Computerlinguistik Statistische Grundlagen

Einführung in die Computerlinguistik

Die Modalverben des Portugiesischen (PB und PE) Semantik und Pragmatik in der Verortung einer kommunikativen Grammatik

Ökonomik und Ethik: Studien zur Sozialstruktur und Semantik moderner Governance

Modulhandbuch für den integrierten Studiengang Computerlinguistik

Einführung in die Computerlinguistik Vorbesprechung

Speech Recognition Grammar Compilation in Grammatikal Framework. von Michael Heber

Modulhandbuch Bachelorstudiengang: Computerlinguistik

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik

Johannes Christian Panitz

Projektseminar "Texttechnologische Informationsmodellierung"

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

005 Einführungen. Abrisse (hier nur Gesamtgebiet) 010 Grundlegende Untersuchungen. (hier nur Gesamtgebiet) Lehrbücher

Transkript:

Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag Heidelberg Berlin

vii Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Zur Geschichte der Computerlinguistik 1 1.1.1 Symbolische Sprachverarbeitung 3 1.1.2 Korpusstatistische Verfahren 4 1.1.3 Anwendungen der Computerlinguistik 6 1.2 Aspekte der Computerlinguistik 10 1.2.1 Computerlinguistik: Die Wissenschaft 10 1.2.2 Computerlinguistik und ihre Nachbardisziplinen 11 1.2.3 Teilbereiche der Computerlinguistik 14 1.2.4 Wissensbereiche 15 1.2.5 Industrielle Anwendungen 18 1.2.6 Theoretische Forschung in der Computerlinguistik... 20 1.2.7 Praktische Forschung in der Computerlinguistik 21 1.2.8 Computerlinguistik und Linguistik 22 1.2.9 Literaturhinweise 23 2 Formale Grundlagen 25 2.1 Mengenlehre und Logik 26 2.1.1 Mengenlehre 26 2.1.2 Aussagenlogik 31 2.1.3 Prädikatenlogik 37 2.1.4 Typenlogik 45 2.1.5 Der Lambda-Kalkül 52 2.1.6 Modaloperatoren 57 2.1.7 Literaturhinweise 58 2.2 Automatentheorie und Formale Sprachen 59 2.2.1 Grundlegende Definitionen 59 2.2.2 Grammatiken 60 2.2.3 Endliche Automaten, einseitig-lineare Grammatiken und reguläre Sprachen 63 2.2.4 Kontextfreie Sprachen und Grammatiken 72 2.2.5 Nicht-kontextfreie Sprachen und Grammatiken 77 2.2.6 Komplexitäts- und Entscheidbarkeitseigenschaften... 82 2.2.7 Zusammenfassung 85 2.2.8 Literaturhinweise 85 2.3 Graphentheorie und Merkmalsstrukturen 87 2.3.1 Graphen und Bäume 87 2.3.2 Merkmalsstrukturen 90 2.3.3 Unifikation 95 2.3.4 Generalisierung 98 2.3.5 Typisierte Merkmalsstrukturen 101 2.3.6 Literaturhinweise 106 2.4 Wahrscheinlichkeitstheorie und Hidden-Markov-Modelle 107

viii Inhaltsverzeichnis 2.4.1 Wahrscheinlichkeitstheoretische Grundlagen 107 2.4.2 Hidden-Markov-Modelle 117 2.4.3 Literaturhinweise 132 3 Methoden 135 3.1 Phonologie 136 3.1.1 Probleme und Terminologie 137 3.1.2 Methoden 147 3.1.3 Literaturhinweise 174 3.2 Morphologie 175 3.2.1 Überblick 175 3.2.2 Grundbegriffe und -Probleme 175 3.2.3 Modelle aus der Generativen Linguistik 179 3.2.4 Morphologie mit endlichen Automaten 183 3.2.5 Default-Vererbungsnetze: DATR 190 3.2.6 Erweiterte Finite-State-Ansätze 196 3.2.7 Morphologie und generative Kapazität 201 3.2.8 Zusammenfassung und Ausblick 202 3.2.9 Literaturhinweise 202 3.3 Syntax und Parsing 203 3.3.1 Syntax 204 3.3.2 Parsing 223 3.3.3 Literaturhinweise 245 3.4 Semantik 246 3.4.1 Grundlagen der natürlichsprachlichen Semantik 248 3.4.2 Montague-Semantik 254 3.4.3 Theorie der generalisierten Quantoren 268 3.4.4 Diskursrepräsentationstheorie 272 3.4.5 Ansätze zur Unterspezifikation 284 3.4.6 Lexikalische Semantik 290 3.4.7 Literaturhinweise 303 3.5 Diskurs und Pragmatik 305 3.5.1 Präsuppositionsverarbeitung 306 3.5.2 Benutzermodellierung 316 3.6 Textgenerierung 331 3.6.1 Aufgaben der Planung und Umsetzung 332 3.6.2 Funktionalität des Planungsprozesses 335 3.6.3 Methoden zur Diskursplanung 341 3.6.4 Satzplanungsverfahren 350 3.6.5 Verfahren zur Oberflächenrealisierung 355 3.6.6 Linguistische Theorien zur Generierung 357 3.6.7 Literaturhinweise 360

ix 4 Ressourcen 361 4.1 Das World Wide Web 362 4.1.1 Markup-Sprachen als Fundament des WWW 362 4.1.2 Der computerlinguistische Einsatz von SGML/XML... 365 4.1.3 Computerlinguistik, XML und das WWW 366 4.1.4 Computerlinguistik und das Semantic Web 367 4.1.5 Literaturhinweise 368 4.2 Textkorpora 369 4.2.1 Korpustypen und ihre Zusammensetzung 369 4.2.2 Erstellung von Korpora 370 4.2.3 Korpusrepräsentation 372 4.2.4 Hinzufügen von linguistischer Information 373 4.2.5 Abfragesysteme für Textkorpora 375 4.3 Baumbanken 377 4.3.1 Zentrale Eigenschaften von Baumbanken 377 4.3.2 Die Penn Treebank 379 4.3.3 Das TIGER Korpus 381 4.3.4 Literaturhinweise 384 4.4 Lexikalisch-semantische Wortnetze 386 4.4.1 GermaNet - ein deutsches Wortnetz 387 4.4.2 EuroWordNet, ein polylinguales Wortnetz 390 4.4.3 Anwendungsperspektiven semantischer Netze 392 4.4.4 Literaturhinweise 393 4.5 Lexika für multimodale Systeme 394 4.5.1 Wörterbuch, Lexikon, oder Enzyklopädie? 394 4.5.2 Die Lexikonbaumeister 395 4.5.3 Eigenschaften eines Lexikons 397 4.5.4 Schritte im Lexikonaufbau 399 4.5.5 Wie geht's weiter? 400 4.6 Sprachdatenbanken 402 4.6.1 Definitionen 402 4.6.2 Sprachdatenbanken 403 4.6.3 Software 406 4.6.4 Beispiele: Verbmobil und SpeechDat-II 407 4.6.5 Literaturhinweise 408 5 Anwendungen 409 5.1 Korrekturprogramme 411 5.1.1 Korrektur von Nicht-Wörtern 412 5.1.2 Kontextabhängige Korrektur 413 5.1.3 Grammatikkorrektur 414 5.1.4 Perspektiven 416 5.1.5 Literaturhinweise 417 5.2 Computergestützte Lexikographie 418 5.2.1 Aufgaben und Aspekte der computergestützten Lexikographie 419

5.2.2 Lexikographiesysteme 422 5.2.3 Computational Terminology 423 5.2.4 Stand und Perspektiven 423 5.2.5 Literaturhinweise 424 5.3 Volltextsuche und Text Mining 425 5.3.1 Volltextsuche 427 5.3.2 Text Mining 434 5.3.3 Literaturhinweise 441 5.4 Textklassifikation 442 5.4.1 Generische System-Architektur 442 5.4.2 Verschiedene technologische Lösungsansätze 443 5.4.3 Evaluierung von Textklassifikations-Systemen 446 5.4.4 Stand der Technik 446 5.4.5 Perspektiven 447 5.4.6 Literaturhinweise 447 5.5 Informationsextraktion 448 5.5.1 Ein Beispiel 449 5.5.2 Evaluationskriterien für IE 450 5.5.3 Ein generisches IE-System 451 5.5.4 Maschinelle Lernverfahren für IE 453 5.6 Textzusammenfassung 456 5.6.1 Wissensverarbeitende Systeme 457 5.6.2 Statistische Verfahren 460 5.6.3 Aktuelle Entwicklung 461 5.7 Sprachsynthesesysteme 462 5.7.1 Struktur eines TTS-Systems 462 5.7.2 Computerlinguistische TTS-Komponenten 463 5.7.3 Ein einheitlicher Formalismus 466 5.7.4 Perspektiven 467 5.7.5 Literaturhinweise 468 5.8 Spracherkennungssysteme 469 5.8.1 Struktur eines automatischen Spracherkenners 469 5.8.2 Paradigma der Spracherkennung: HMM 471 5.8.3 Modellierung gesprochener Sprache 472 5.8.4 Perspektiven und Herausforderungen 475 5.8.5 Literaturhinweise 476 5.9 Natürlichsprachliche Retrieval-Schnittstellen 477 5.9.1 Eigenschaften von Anfragesprachen 477 5.9.2 Systeme 479 5.9.3 Wirkung auf den Benutzer 481 5.9.4 Perspektiven 482 5.9.5 Literaturhinweise 482 5.10 Dialogsysteme 484 5.10.1 Anwendungsgebiete 484 5.10.2 Evolution von Dialogsystemen 485 5.10.3 Aufbau eines Dialogsystems 485

xi 5.10.4 Multimodale Dialogsysteme 489 5.10.5 Design von Dialogsystemen 490 5.10.6 Literaturhinweise 491 5.11 Sprachlehr- und -lernsysteme 492 5.11.1 Herkömmliche Sprachlehrprogramme 492 5.11.2 ICALL-Systeme 493 5.11.3 Fazit 498 5.12 Elektronische Kommunikationshilfen 499 5.12.1 Typen von Kommunikationshilfen 499 5.12.2 Kommunikationshilfen mit Sprach- oder Textausgabe.. 500 5.12.3 Perspektiven 504 5.12.4 Literaturhinweise 504 5.13 Angewandte natürlichsprachliche Generierungs- und Auskunftssysteme 506 5.13.1 Was ist angewandte NLG? 507 5.13.2 Beispiele für angewandte NLG-Systeme 507 5.13.3 Mechanismen und Methoden 509 5.13.4 Perspektiven 512 5.13.5 Literaturhinweise 513 5.14 Maschinelle Übersetzung 514 5.14.1 MÜ-Ansätze 515 5.14.2 Aktueller Stand und Perspektiven 520 5.14.3 Literaturhinweise 521 6 Evaluation sprachverarbeitender Systeme 523 6.1 Einführung 523 6.1.1 Warum wird evaluiert? 523 6.1.2 Wie wird evaluiert? 524 6.1.3 Was wird evaluiert? 526 6.2 Akustische Evaluation 527 6.2.1 Motivation 528 6.2.2 Spracherkennung 528 6.2.3 Methoden und Maße 531 6.2.4 Diskussion 533 6.3 Evaluation eines Dolmetschsystems 535 6.3.1 Das VERBMOBIL System 535 6.3.2 Spezifikation der Anforderungen 536 6.3.3 Durchführung der Evaluation 537 6.3.4 Ergebnisse 539 6.4 Fazit 540 Literaturverzeichnis 541 Index 567 Die Autorinnen und Autoren 579