Automatische Textzusammenfasung Katja Diederichs Francisco Mondaca Simon Ritter PS Computerlinguistische Grundlagen I - Jürgen Hermes - WS 09/10 Uni Köln
Gliederung 1) Einleitung & Überblick 2) Ansätze zur Textzusammenfassung 3) Stufen der Textzusammenfassung 4) Anwendungsbeispiel
Definition Eine Zusammenfassung ist ein Text, der aus einem oder mehreren Texten erstellt wird und einen relevanten Teil der Informationen des Textes oder der Texte beinhaltet. Sie ist nicht länger als die Hälfte des Originaltextes (vgl. Hovy 2003 : 584).
Text Multimediale Dokumente Online Dokumente Hypertexte Usw...
Typen von Zusammenfassungen Indikative: Sie stellen die Grundidee des Textes dar ohne auf den Inhalt näher einzugehen. Informative: Sie bieten eine kürzere Version des Textinhaltes.
Typen von Zusammenfassungen Extracts: Geben Teile des Originaltextes wortwörtlich wieder. Abstracts: Werden durch die Regenerierung von extrahiertem Inhalt erstellt.
Entwicklung Ende 1950, Anfang 1960: Statistische Verfahren Anfang 1980: Wissensbasierte Verfahren Aktuell: Annäherung der Qualität an menschliche Leistung
Ansätze zur Textzusammenfassung Klassischer statistischer Ansatz - Statistisches Verfahren entwickelt ein Extract - Statistische Verteilung von Merkmalen wird berücksichtigt ohne Text zu verstehen - Wichtigkeit eines Wortes = Häufigkeit seines Auftretens
Ansätze zur Textzusammenfassung Neuerer statistischer Ansatz Das System lernt anhand eines Korpus von menschlichen Abstracts, welche Sätze extrahiert werden sollen Trainingskorpus ingenieurwissenschaftliche Texte Testkorpus ingenieurwissenschaftlicher Text; darf nicht identisch mit Trainingskorpus sein!
Ansätze zur Textzusammenfassung Neuerer statistischer Ansatz Für jeden Satz: Errechnung der Wahrscheinlichkeit, mit der ein menschlicher Zusammenfasser ihn positiv bewerten würde Mittels: Abgleich der statistischen Merkmale im gegebenen Testkorpus mit denen des Trainingskorpus anhand bestimmter Kriterien
Ansätze zur Textzusammenfassung Neuerer statistischer Ansatz Kriterien für Sätze positiv oder negativ gewertet Satzlänge => Sätze unter 5 Wörtern negativ Indikatorphrasen => In conclusion... positiv Absatzstruktur => Erste 10, letzte 5 Absätze positiv Themasätze am Anfang/Ende positiv Schlüsselwörter => Viele Schlüsselwörter positiv Akronyme => Eigenname, Akronym(IBM) positiv
Ansätze zur Textzusammenfassung Neuerer statistischer Ansatz Ergebnisse dieses Verfahrens zeigen: - Die Übereinstimmung mit menschlichen Abstracts beträgt ca. 35% - Die Übereinstimmung innerhalb menschlicher Abstracts ist ebenso groß
Ansätze zur Textzusammenfassung Wissensbasierter Ansatz Kognitive Wende: Wissensverarbeitende Systeme, deren Teilaufgaben sich am menschlichen Vorgehen beim Zusammenfassen orientierten
Ansätze zur Textzusammenfassung Wissensbasierter Ansatz Modell wissensbasierten Zusammenfassens: Carstensen 2004
Ansätze zur Textzusammenfassung Wissensbasierter Ansatz Modell wissensbasierten Zusammenfassens: (zu Abb. 5.7): 1: Quelltext (externe Information) wird in Bedeutungsrepräsentation umgesetzt (vgl. menschliches Verstehen) 2: Erst diese Repräsentation wird gekürzt (Reduktion/Verdichtung) 3: Aus dieser Kürzung wiederum wird der Text, die externe Zusammenfassung produziert
Ansätze zur Textzusammenfassung Wissensbasierter Ansatz D ie d rei d a rg es tellten S chritte w erd en nicht von jed em S ys tem volls tä nd ig d urchla ufen Scisor (Jacobs/Rau, 1990) (analyseorientiert) Vom Original ausgehende Zusammenfassung STREAK (McKeown et al., 1995) Textzusammenfassungen aus strukturiertem Datenbestand
Stufen der Textzusammenfassung 1: Bestimmung des Themas V ers chied ene M ethoden: Lage Indikatorphrasen Häufigkeit von Wörtern & Sätzen Titelüberlappung Verknüpfungen Durch die Kombination der Kriterien werden die besten Ergebnisse erzielt
Stufen der Textzusammenfassung 2: Interpretation Informationen werden verschmolzen & neu geordnet Ergebnisse dieser Stufe sind meist noch zusammenhangslose, schwer zu lesende Texte
Stufen der Textzusammenfassung 3: Erstellung der Zusammenfassung Entstandene Rohfassung wird in die Form eines natürlichen, kohärenten Text gebracht - Kompression - Zusammenlegung von Sätzen - Generierung von Überschriften - Grammatikalische Neuordnung Bei Extracts: Smoothing
Anwendungsbeispiel http://swesum.nada.kth.se/index-eng.html http://www.rong-chang.com/qa2/stories/story005.htm
Literatur CARSTENSEN, Kai-Uwe (Hrsg.) (2004 2 ). Computerlinguistik und Sprachtechnologie. München: Elsevier. MITKOV, Ruslan (Hrsg.) (2003). The Oxford Handbook of Computational Linguistics. Oxford: Oxford University Press.