Themenüberblick. Seminar Angewandtes Text Mining 2013 / 04 / 17. Philippe Thomas Lars Döhling Tim Rocktäschel. Wissensmanagement in der Bioinformatik

Größe: px

Ab Seite anzeigen:

Download "Themenüberblick. Seminar Angewandtes Text Mining 2013 / 04 / 17. Philippe Thomas Lars Döhling Tim Rocktäschel. Wissensmanagement in der Bioinformatik"

Jörg Kraus
vor 7 Jahren
Abrufe

1 Themenüberblick Seminar Angewandtes Text Mining Philippe Thomas Lars Döhling Tim Rocktäschel Wissensmanagement in der Bioinformatik 2013 / 04 / 17

2 1 Semi-Supervised Learning 2 Named Entity Recognition 3 Open IE 4 Probabilistic Decipherment Tim Rocktäschel 1/11

3 Thema 4: Reranking und Self-training Ziel Trainiere ein Modell auf Trainingsdaten, sodass akkurate Vorhersagen auf ungesehenen Daten möglich sind (Generalisierung) Problem Trainingsdaten und ungesehenen Daten haben (fast) immer unterschiedliche Eigenschaften Zum Beispiel unterschiedliche Domänen: Modell für Gennamenerkennung wurde auf Texten zu Krebserkrankungen trainiert und anschließend auf Texten zu Lebererkrankungen angewendet Modell für Dependency Parsing trainiert auf dem Penn Wall Street Journal Treebank Korpus, aber evaluiert auf dem Brown Treebank Korpus Ansätze Multitask Learning Domain Adaptation Sample Selection Bias Covariate Shift Transfer Learning Self-Training Reranking Tim Rocktäschel 2/11

4 Thema 4: Reranking und Self-training (cont.) Reranking Erzeuge mehrere Vorhersagen und lerne davon diejenige auszuwählen, welche in einer bestimmten Domäne am besten geeignet ist Self-Training Nutze Vorhersagen auf ungelabelten Daten als zusätzliche Trainingsdaten Paper [Pan and Yang, 2010]: Übersicht über Transfer Learning und Bezug zu verwandten Ansätzen (u.a. Self-Training) [McClosky et al., 2006a] und [McClosky et al., 2006b]: Reranking und Self-Traing für Dependency Parsing (zur Domain-Adaptation und Steigerung der Robustheit des Modells) Mögliche Fragestellungen [Pan and Yang, 2010] dient nur zur Einordnung! Hauptthemen sind [McClosky et al., 2006a] und [McClosky et al., 2006b] Was ist Dependency Parsing? Wie funktioniert Self-Training? Wie funktioniert Reranking? Unterschiede? Was erhofft man sich von diesen Methoden und was bringen sie tatsächlich? Tim Rocktäschel 3/11

5 Thema 8: NER mit Conditional Random Fields Ziel: Finde Nennungen von Entitäten, z.b. Medikamente Valium = Diazepam = DAP DrugBank: 117 Brand Names für Valium/Diazepam 7-chloro-1-methyl-5-phenyl-2H-1,4-benzodiazepin-2-one 7-chloro-1-methyl-5-phenyl-3H-1,4-benzodiazepin-2(1H)-one 7-chloro-1-methyl-5-phenyl-1,3-DIHYDRO-2H-1,4-benzodiazepin-2-one 7-chloro-1-methyl-2-oxo-5-phenyl-3H-1,4-benzodiazepine 1-methyl-5-phenyl-7-chloro-1,3-DIHYDRO-2H-1,4-benzodiazepin-2-one 7-chloro-1,3-dihydro-1-methyl-5-phenyl-2H-1,4-benzodiazepin-2-one 7-chloro-1-methyl-5-3H-1,4-benzodiazepin-2(1H)-one Problem: Wie findet man Nennungen von nicht-systematisch benannten Entitäten? Kein vollständiges Wörterbuch existiert Kein Regelwerk ist umfangreich und gleichzeitig spezifisch genug Ansätze Maschinelles Lernen! Probabilistische sequenzielle Modelle: Hidden Markov Models Maximum Entropy Markov Models Conditional Random Fields Tim Rocktäschel 4/11

6 Thema 8: NER mit Conditional Random Fields (cont.) i y O B-DrugN O B-DrugN I-DrugN I-DrugN O B-Group O O O x Both ibogaine and 18 - MC ameliorate opioid withdrawal signs. y i 2 y i 1 y i y i+1 y i+2 Ψ Ψ Ψ Ψ Ψ x Paper [Leaman and Gonzalez, 2008]: Erkennung von Gen-Nennungen [Klinger et al., 2008]: Erkennung von chemischen Entitäten [Rocktäschel et al., 2013]: Erkennung von Medikamentennamen Mögliche Fragestellungen Fokus auf Feature Engineering: Welche Feature bringen viel? Wie evaluiert man das? Was sind Gemeinsamkeiten der drei Systeme? Was sind übliche Parameter und Tricks? Token Format CRF Order Offset Conjunctions Warum benutzt man oft CRFs anstelle von Hidden Markov Models oder Maximum Entropy Markov Models? Tim Rocktäschel 5/11

7 Thema 12: Open Information Extraction Ziel Klassische domänenspezifische Relationsextraktion: Finde Protein-Protein-Interaktionen Open-Domain Relationsextraktion: Extrahiere beliebige Relationen aus beliebigen Texten (aus dem Web) Problem: Kein Zielschema vorhanden Wie extrahiert man Relationen von denen man vorab nicht einmal weiß das es sie gibt? Beispiele: X has an increased risk of Y X is assistant editor at Y X also works on Y X is the best defense against Y X tends to become Y X is always done with Y X died for Y... Mehr als 1.2 Millionen Relationen: Tim Rocktäschel 6/11

8 Thema 12: Open Information Extraction (cont.) Open IE Ansatz Extrahiere generische Relations-Phrasen Vermeide spezifische Nomen / Verben Web-scale: Fokus auf Effizienz! Bootstrapping, Semi-Supervised Learning Paper: Zwei state-of-the-art Systeme [Etzioni et al., 2011]: ReVerb [Mausam et al., 2012]: OLLIE Mögliche Fragestellungen Was sind Unterschiede zu klassischer Relationsextraktion? Wie evaluiert man Open IE? Unterschiede zwischen ReVerb und OLLIE Tim Rocktäschel 7/11

9 Thema 13: Bayesian Decipherment Ziel: Fully-automated Zodiac-408 cipher decocding Zodiac-340 cipher seit 43 Jahren unentschlüsselt! Ansätze Manuell Wörterbuch-basiert Probabilistic Decipherment Tim Rocktäschel 8/11

10 Thema 13: Bayesian Decipherment (cont.) Bayesian Decipherment Character N-Gram Language Models Bayesian Network mit Noisy-Channel Ansatz Chinese Restaurant Process Approximate Inference: Gibbs Sampling Paper [Ravi and Knight, 2011]: Erste vollautomatische Zodiac-408 Entschlüsselung [Reddy and Knight, 2012]: Gibbs Sampling zum Entschlüsseln von Running Key Ciphers Mögliche Fragestellungen Fokus auf [Ravi and Knight, 2011] Was für bekannte Chiffren gibt es? Was macht die Zodiac-408 Chiffre so schwer? Wie funktioniert der Noisy-Channel Ansatz / der Chinese Restaurant Process? Was sind Model Priors / Hyperparameters und wofür braucht man sie? Unterschiede zwischen Expectation Maximization Methode und Bayesian Decipherment Tim Rocktäschel 9/11

11 References I Etzioni, O., Fader, A., Christensen, J., and Soderland, S. (2011). Open Information Extraction : The Second Generation. In Proc. of International Joint Conference on Artificial Intelligence, pages AAAI. Klinger, R., Kolárik, C., Fluck, J., Hofmann-Apitius, M., and Friedrich, C. M. (2008). Detection of IUPAC and IUPAC-like chemical names. In Proc. of ISMB Bioinformatics, volume 24, pages i268 i276. Leaman, R. and Gonzalez, G. (2008). BANNER: an executable survey of advances in biomedical named entity recognition. In Proc. of Pacific Symposium on Biocomputing., pages Mausam, Schmitz, M., Bart, R., Soderland, S., and Etzioni, O. (2012). Open language learning for information extraction. In Proc. of EMNLP-2012, pages Association for Computational Linguistics. McClosky, D., Charniak, E., and Johnson, M. (2006a). Effective self-training for parsing. In Proc. of NAACL-2006, pages Association for Computational Linguistics. McClosky, D., Charniak, E., and Johnson, M. (2006b). Reranking and Self-Training for Parser Adaptation. In Proc. of the 44th ACL, pages Association for Computational Linguistics. Tim Rocktäschel 10/11

12 References II Pan, S. J. and Yang, Q. (2010). A Survey on Transfer Learning. IEEE Transactions on Knowledge and Data Engineering, 22(10): Ravi, S. and Knight, K. (2011). Bayesian inference for Zodiac and other homophonic ciphers. In Proc. of the 49th ACL, pages Association for Computational Linguistics. Reddy, S. and Knight, K. (2012). Decoding running key ciphers. In Proc. of the 50th ACL, pages Association for Computational Linguistics. Rocktäschel, T., Huber, T., Weidlich, M., and Leser, U. (2013). The impact of domain-specific features on the performance of identifying and classifying mentions of drugs. In Proc. of the SemEval to appear. Tim Rocktäschel 11/11

Ähnliche Dokumente

Projektgruppe. Text Labeling mit Sequenzmodellen

Projektgruppe. Text Labeling mit Sequenzmodellen Projektgruppe Enes Yigitbas Text Labeling mit Sequenzmodellen 4. Juni 2010 Motivation Möglichkeit der effizienten Verarbeitung von riesigen Datenmengen In vielen Bereichen erwünschte automatisierte Aufgabe: