Lexikalisch-semantische Ressourcen für die automatische Analyse von Erziehungswissenschaftlicher Fachliteratur

Größe: px

Ab Seite anzeigen:

Download "Lexikalisch-semantische Ressourcen für die automatische Analyse von Erziehungswissenschaftlicher Fachliteratur"

Johanna Haupt
vor 5 Jahren
Abrufe

1 Workshop UKP Lab DIPF Knowledge Discovery 02. August 2012 Dr. Judith Eckle-Kohler Lexikalisch-semantische Ressourcen für die automatische Analyse von Erziehungswissenschaftlicher Fachliteratur In Teilen basierend auf Zusammenarbeit mit Iryna Gurevych, Silvana Hartmann, Michael Matuschek, Christian M. Meyer, Tri Duc Nghiem

2 Automatische Analyse von Erziehungswissenschaftlicher Fachliteratur Dokumente (pedocs ) Metadaten (Schlagwörter ) Automatische Sprachverarbeitung Natural Language Processing (NLP)

3 Automatische Sprachverarbeitung Natural Language Processing (NLP) Dokumente (pedocs ) Data import Linguistic preprocessing Morphological analysis Syntactic analysis Semantic analysis Metadaten (Schlagwörter ) Project specific analysis Data export

4 Automatische Sprachverarbeitung - wissensbasiert Dokumente (pedocs ) Automatische Sprachverarbeitung Metadaten (Schlagwörter ) Knowledge Base

5 Automatische Sprachverarbeitung - wissensbasiert Dokumente (pedocs ) Automatische Sprachverarbeitung Metadaten (Schlagwörter ) Lexikalisch-Semantische Ressource

6 Automatische Sprachverarbeitung - wissensbasiert Dokumente (pedocs ) Automatische Sprachverarbeitung Metadaten (Schlagwörter ) UBY

7 UBY Integration Lexikalisch-Semantischer Ressourcen WordNet UBY IMSlex-Subcat 2012/06/21 TU Darmstadt UKP-TUDA - Prof. Dr. Iryna Gurevych Dr. Judith Eckle-Kohler 7

8 UBY Deutsch Deutsches WordNet Synonyme, Hyponyme, Hypernyme Lemmas IMSlex-Subcat Valenz-Lexikon Welche Verben sind transitiv? Welche Verben, Nomen, Adjektive nehmen einen dass-satz? Lemmas

9 UBY Deutsch Kollaborative Ressourcen Maschinenlesbares Wörterbuch Lemmas Multilinguales WordNet Lemmas Reich an Named Entities, nur Nomen Lemmas

10 UBY Deutsch Nomen und Verben nach Ressourcen Nomen Verben GermaNet IMSlex Wiktionary

11 Pedocs Volltexte: Verben vs. UBY Verben mit semantischer Klassifizierung 784 Verben aus IMSlex sind in semantische Klassen eingeteilt Verben, die zu-infinitive oder Komplementsätze nehmen können (glauben, hoffen, planen, behaupten, ankündigen, ) Anzahl der Verbvorkommen in Pedocs: davon sind Vorkommen dieser 784 Verben Vorkommen von Verben mit semantischer Klassifizierung Vorkommen anderer Verben

12 Automatische Textanalyse mit semantischen Verbklassen Möglichkeiten Für Dokument-Sammlungen: Annotation von Publikationen mit linguistischen Metadaten Z.B. Textsorte, Stil, z.b. für die Abgrenzung von wissenschaftlicher und praxisorientierter Literatur in FIS Bildung Verwendung standardisierter Metadaten CLARIN Innerhalb von Dokumenten: Diskursstruktur (Argumentation Erkennung von Text-Segmenten, in denen es um Fakten / Meinungen / Hypothesen / Neue Methoden... geht

13 Vielen Dank für Ihre Aufmerksamkeit! Fragen?

14 Pedocs Verbfrequenzliste - Probleme 100 häufigste Verb Lemmas: Rank 52: e 7160 Rank 61: be 6160 Rank 74: nen 5339 Rank 79: ge 5018 Rank 84: n 4745 Rank 100: b 4313

15 Pedocs Verbfrequenzliste - Probleme Verb Lemmas Verb Lemmas mit Frequenz 1 (66% ) zurückspringen 1 zurückspielen 1 zurücksinken 1 zurückschwingt 1 zurückschwingen 1 zurückschreit 1 zurückschieben 1 zurückscheuten 1 zurückschaukeln 1 zurücksandte 1 zurückreichten 1 zurückreicht8 1 zurückrei 1

16 Pedocs Verbfrequenzliste - Probleme Verb Lemmas mit Frequenz 1 (66% ) zur9ckzukehren 1 zur9ckzog 1 zur9ckweisen 1 zur9ckverwiesen 1 zur9ckgelegt 1 zur9ckgegangen 1 zur9ckgeblieben 1 zur9ckfallen 1 zur9ckf9hren 1 zur9ck 1 zur ckzufinden 1 zur ckzuerobern 1 zur ckzahle 1

Ähnliche Dokumente

Automatische Vernetzung von Verben mit kontrastiven Valenzstrukturen in UBY

Automatische Vernetzung von Verben mit kontrastiven Valenzstrukturen in UBY Judith Eckle-Kohler und Christian M. Meyer UBY 3. Sektionentagung der Gesellschaft für Angewandte Linguistik (GAL), Sektion Lexikographie