Automatische Textzusammenfasung

Ähnliche Dokumente
Computerlinguistik Dozent: Dr. Jürgen Hermes Sprachsynthese. Referenten: Oliver Hummel und Carolin Schneider

Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 18/19 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Einführung in die Computerlinguistik

Text-Mining: Einführung

Computerlinguistik und Sprachtechnologie

Vom Suchen und Finden - Google und andere Ansätze

Bachelorarbeit. Was ist zu tun?

Einführung in die Computerlinguistik

Udo Ohm, Universität Bielefeld. Bildungssprachliche Fähigkeiten und berufliches Handeln

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

Maschinelle Textzusammenfassung

TnT - Statistischer Part-of- Speech Tagger

Einführung in die Computerlinguistik

Frequent Itemset Mining + Association Rule Mining

Visualisierung von lexikalischem Wandel im Deutschen auf Basis der Google- Books Ngram Daten

Computerlinguistik und Sprachtechnologie

2. Einfach drauf los schreiben

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig

Midas Metadata yield by Data Analysis

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Semiautomatische Erschließung von Psychologie-Information

Einfluss externer multipler und dynamischer Repräsentationen auf Schülerargumentationen

Biostatistik. Eine Einführung für Biowissenschaftler

Einfuhrung in die inhaltliche Erschließung. Grundlagen - Methoden - Instrumente

Wie man eine wissenschaftliche Abschlussarbeit schreibt

Anfertigen von wissenschaftlichen Arbeiten. Peter Altenbernd - Hochschule Darmstadt

Volltextsuche und Text Mining

2. Einfach drauf los schreiben

Entwicklung und Überprüfung eines Indexes zur Beurteilung des Risikos physischer und sozialer Beeinträchtigungen durch die Arbeitszeitgestaltung

Erlebnisorientiertes Internetmarketing

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind

Deckblatt (Download!) Titelblatt Inhaltsverzeichnis (S. 1) Einleitung mehrere thematisch konturierte Kapitel Schluss/Fazit Literaturverzeichnis

Entscheidungsunterstützungssysteme

Gemeinsames TUM-LMU Seminar

Argumentieren mit multiplen und dynamischen Darstellungen. Jahrestagung der GDM in Weingarten Andreas Bauer

Einführung in HTML. Hui Dai. WS05/ Hui Dai 1

Human Capital Management: Anwendbarkeit und Nutzen einer monetären Human Capital Bewertung mit der Saarbrücker Formel nach Scholz, Stein & Bechtel

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

The Turn: Integration of Information Seeking and Retrieval in Context

11. Sitzung Auswertungsstrategien; Darstellung von Forschungsergebnissen

1) Techniken wissenschaftlichen Arbeitens. 4) Technische Anforderungen an Hausarbeiten

Ensemble-Vorhersage. von Nils Kaiser Seminar Medienmeteorologie im WS 06/07

Leitfaden zur Diplomarbeit

Hinweise zum Verfassen einer Hausarbeit

Wissenschaftliches Arbeiten und Forschen

Leitfaden zur Diplomarbeit

3. Sitzung. Wie schreibe ich eine Hausarbeit?

Angebot DIN/ISO-Kurzcheck per ipad Vorbereitung der Erstzertifizierung nach DIN EN 15224

Bio- Statistik 1. mit 87 Abbildungen, 40 Tabellen und 102 Beispielen

Barrieren medialer Partizipation

Tagger for German. Online BRILL-Tagger für das Deutsche

Wahrscheinlichkeitstheorie Kapitel I - Einführende Beispiele

Inhalt 1 Einleitung 2 Theoretische Überlegungen zum Zusammenhang von Wirtschafts- und Bildungssystem und die Spielarten des Kapitalismus

Thema: Prototypische Implementierung des Vektormodells

Maschinelle Sprachverarbeitung Tokenisierung

Vorlesung: Statistik II für Wirtschaftswissenschaft

Einführung in die Computerlinguistik

Ansätze zur Erfassung und Beurteilung menschlicher Arbeitsleistungen bei Dienstleistungen

MASTERARBEIT (bzw. BACHELORARBEIT) TITEL DER ARBEIT. Vorname Nachname

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Welche Bedeutung haben Entscheidungsregeln für die Reliabilität der Dateninterpretation im Evaluationsprozess?

Textsorten. Folien zum Tutorium Internationalisierung Go West: Preparing for First Contacts with the Anglo- American Academic World

Überblick: Formale Anforderungen an die Hausarbeit

ELENA Elektronische Übermittlung von Einkommensnachweisen. Grundsätze der Modellierung

Leitfaden zur Erstellung einer Projekt- oder Abschlussarbeit

Maschinelle Übersetzung

Maschinelle Übersetzung

Soziale Arbeit in der Medizinischberuflich orientierten Rehabilitation

PETRUS Szenario 1 Automatische Sachgruppenvergabe

DELA Wörterbücher ===========================================================

Eigenschaften von Texten

Konstruktionsbegleitende Toleranzsimulation mit

Männerpolitische Grundsatzabteilung. Vereinbarkeit von Familie und Beruf aus Männersicht

Ziele und Herausforderungen

Listed Private Equity; Performance, Einflussfaktoren und Portfolioeffekte

Vornorm DIN CLC/TS (VDE V ): CLC/TS 62046:2008

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

DISSERTATION. Diagnosespektrum in homöopathischen Arztpraxen eine prospektive Beobachtungsstudie und ein Vergleich zu konventionellen Arztpraxen

Lernen mit Neuen Medien

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register

ZEITMANAGEMENT UND BETREUUNG DER ARBEIT

Am Ball bleiben - Wie arbeite ich kontinuierlich und strukturiert? Wibke Derboven

Möglichkeiten biografisch orientierter Unterrichtsarbeit in der Schule

Konzeption eines Qualitätscontrollings für die Stationäre Altenhilfe

Master-Arbeit. Titel der Arbeit. Betreuer: Matthias Splieth, M.Sc. Themensteller: Prof. Dr. Klaus Turowski

Dekonvolution von Omnikamerabildern

Vortrag Iterative Prozessmodelle/SCRUM

Transkript:

Automatische Textzusammenfasung Katja Diederichs Francisco Mondaca Simon Ritter PS Computerlinguistische Grundlagen I - Jürgen Hermes - WS 09/10 Uni Köln

Gliederung 1) Einleitung & Überblick 2) Ansätze zur Textzusammenfassung 3) Stufen der Textzusammenfassung 4) Anwendungsbeispiel

Definition Eine Zusammenfassung ist ein Text, der aus einem oder mehreren Texten erstellt wird und einen relevanten Teil der Informationen des Textes oder der Texte beinhaltet. Sie ist nicht länger als die Hälfte des Originaltextes (vgl. Hovy 2003 : 584).

Text Multimediale Dokumente Online Dokumente Hypertexte Usw...

Typen von Zusammenfassungen Indikative: Sie stellen die Grundidee des Textes dar ohne auf den Inhalt näher einzugehen. Informative: Sie bieten eine kürzere Version des Textinhaltes.

Typen von Zusammenfassungen Extracts: Geben Teile des Originaltextes wortwörtlich wieder. Abstracts: Werden durch die Regenerierung von extrahiertem Inhalt erstellt.

Entwicklung Ende 1950, Anfang 1960: Statistische Verfahren Anfang 1980: Wissensbasierte Verfahren Aktuell: Annäherung der Qualität an menschliche Leistung

Ansätze zur Textzusammenfassung Klassischer statistischer Ansatz - Statistisches Verfahren entwickelt ein Extract - Statistische Verteilung von Merkmalen wird berücksichtigt ohne Text zu verstehen - Wichtigkeit eines Wortes = Häufigkeit seines Auftretens

Ansätze zur Textzusammenfassung Neuerer statistischer Ansatz Das System lernt anhand eines Korpus von menschlichen Abstracts, welche Sätze extrahiert werden sollen Trainingskorpus ingenieurwissenschaftliche Texte Testkorpus ingenieurwissenschaftlicher Text; darf nicht identisch mit Trainingskorpus sein!

Ansätze zur Textzusammenfassung Neuerer statistischer Ansatz Für jeden Satz: Errechnung der Wahrscheinlichkeit, mit der ein menschlicher Zusammenfasser ihn positiv bewerten würde Mittels: Abgleich der statistischen Merkmale im gegebenen Testkorpus mit denen des Trainingskorpus anhand bestimmter Kriterien

Ansätze zur Textzusammenfassung Neuerer statistischer Ansatz Kriterien für Sätze positiv oder negativ gewertet Satzlänge => Sätze unter 5 Wörtern negativ Indikatorphrasen => In conclusion... positiv Absatzstruktur => Erste 10, letzte 5 Absätze positiv Themasätze am Anfang/Ende positiv Schlüsselwörter => Viele Schlüsselwörter positiv Akronyme => Eigenname, Akronym(IBM) positiv

Ansätze zur Textzusammenfassung Neuerer statistischer Ansatz Ergebnisse dieses Verfahrens zeigen: - Die Übereinstimmung mit menschlichen Abstracts beträgt ca. 35% - Die Übereinstimmung innerhalb menschlicher Abstracts ist ebenso groß

Ansätze zur Textzusammenfassung Wissensbasierter Ansatz Kognitive Wende: Wissensverarbeitende Systeme, deren Teilaufgaben sich am menschlichen Vorgehen beim Zusammenfassen orientierten

Ansätze zur Textzusammenfassung Wissensbasierter Ansatz Modell wissensbasierten Zusammenfassens: Carstensen 2004

Ansätze zur Textzusammenfassung Wissensbasierter Ansatz Modell wissensbasierten Zusammenfassens: (zu Abb. 5.7): 1: Quelltext (externe Information) wird in Bedeutungsrepräsentation umgesetzt (vgl. menschliches Verstehen) 2: Erst diese Repräsentation wird gekürzt (Reduktion/Verdichtung) 3: Aus dieser Kürzung wiederum wird der Text, die externe Zusammenfassung produziert

Ansätze zur Textzusammenfassung Wissensbasierter Ansatz D ie d rei d a rg es tellten S chritte w erd en nicht von jed em S ys tem volls tä nd ig d urchla ufen Scisor (Jacobs/Rau, 1990) (analyseorientiert) Vom Original ausgehende Zusammenfassung STREAK (McKeown et al., 1995) Textzusammenfassungen aus strukturiertem Datenbestand

Stufen der Textzusammenfassung 1: Bestimmung des Themas V ers chied ene M ethoden: Lage Indikatorphrasen Häufigkeit von Wörtern & Sätzen Titelüberlappung Verknüpfungen Durch die Kombination der Kriterien werden die besten Ergebnisse erzielt

Stufen der Textzusammenfassung 2: Interpretation Informationen werden verschmolzen & neu geordnet Ergebnisse dieser Stufe sind meist noch zusammenhangslose, schwer zu lesende Texte

Stufen der Textzusammenfassung 3: Erstellung der Zusammenfassung Entstandene Rohfassung wird in die Form eines natürlichen, kohärenten Text gebracht - Kompression - Zusammenlegung von Sätzen - Generierung von Überschriften - Grammatikalische Neuordnung Bei Extracts: Smoothing

Anwendungsbeispiel http://swesum.nada.kth.se/index-eng.html http://www.rong-chang.com/qa2/stories/story005.htm

Literatur CARSTENSEN, Kai-Uwe (Hrsg.) (2004 2 ). Computerlinguistik und Sprachtechnologie. München: Elsevier. MITKOV, Ruslan (Hrsg.) (2003). The Oxford Handbook of Computational Linguistics. Oxford: Oxford University Press.