Semantische Suche und Visualisierung von biomedizinischen Relationsdaten

Ähnliche Dokumente
Eine semantische Suchmaschine in der Biomedizin

Retrieval und Visualisierung biomedizinischer Relationen

RDF & OWL. Praktikum Softwaretechnologie für die Ressourcenlinguistik. Johannes Hellrich & Erik Fäßler SS FSU Jena

Evaluation verschiedener Triple-Stores zum Speichern von Metadaten im Kontext des Forschungsdatenmanagements

Linguistik mit Schwerpunkt Computerlinguistik / Sprachtechnologie

Swoogle. Patrice Matthias Brend amour

HEALTH Institut für Biomedizin und Gesundheitswissenschaften

Ontologien und Ontologiesprachen

Information Retrieval. Peter Kolb

Zusammenfassung. Vorlesung Webbasierte Informationssysteme (CS4130) Zusammenfassung

Linked Open Data in Musikbibliotheken. am Beispiel des RISM-OPAC. AIBM-Tagung bis in Nürnberg

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN

Exposé zur Studienarbeit. 04. August 2010

Reasoner for the Semantic Web

Softwaretechnologie für die Ressourcenlinguistik

Information Retrieval and Semantic Technologies

Einführung in. Apache Solr PRAXISEINSTIEG IN DIE INNOVATIVE SUCHTECHNOLOGIE. Markus Klose & Daniel Wrigley

8. Mai Humboldt-Universität zu Berlin. LingPipe. Mark Kibanov und Maik Lange. Index. Allgemeine Infos. Features

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Webarchivierung im BSZ. Dr. Barbara Löhle Bibliotheksservice-Zentrum Baden-Württemberg Göppingen, 2. Mai 2012

Projektgruppe. Knowledge Representation Persistence and Reasoning

Einführung in das Forschungsinformationssystem VIVO Hands-On-Lab auf dem 6. Deutschen Bibliothekartag

Eclipse und EclipseLink

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

Transformation einer relationalen Datenbank nach RDF am Beispiel von Reef Check-Daten. Seminararbeit Konrad Johannes Reiche

GRDDL, Microformats, RDF/A

GATE General Architecture for Text Engineering. Alexander Hein & Erik Dießler (VL Text Analytics )

Georg-Simon-Ohm Hochschule Nürnberg. Semantic Web Thomas Pospech

Wissen aus unstrukturierten natürlichsprachlichen

- Angebots- und Vertragswesen: Angebot

Literatursuche in Med-Datenbanken

Promotionskolleg DIPF TU Darmstadt Knowledge Discovery in Scientific Literature Iryna Gurevych

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

Präsentation des Dissertationsvorhabens Erste Schritte. Carola Carstens Hildesheim, 15. Oktober 2007

Data-Warehouse-Praktikum

Profiling Linked Open Data with ProLOD. LiDDM: A Data Mining System for Linked Data

Semantic Technologies

Florian Zipser Humboldt-Universität zu Berlin

Topic Maps. Wissensmanagement in Bildungseinrichtungen. Seminar Web Engineering Lars Heuer,

Semantik und Bilddaten: wie Terminologien in der Radiologie helfen. Henning Müller

dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung und Big Data im Informationsmanagement

CoRS-O-Mat. Eine freie, webbasierte Anwendungssoftware für linguistische Forschungsdaten

Was sind Ontologie-Editoren?

Aufspürung von Gene Ontology Termen in wissenschaftlichen Artikeln

Caliph & Emir. Retrieval und Annotation von digitalen Photos mit MPEG-7. Mathias Lux

Literaturrecherche mit PubMed (Einführung)

ERWEITERUNG CONTAO INDEXIERUNG - SUCHE AUF OFFICE- UND PDF-DATEIEN

Semantic Web & TYPO3. Netresearch GmbH & Co. KG -

Digitale Rekonstruktion

LIVIVO: Das neue ZB MED-Suchportal für Lebenswissenschaften Jana Pössel. AGMB-Tagung Basel, Seite

OPEN SOURCE ALS CHANCE FÜR UNTERNEHMEN

XML-Technologien Tutorium 6

Verknüpfte Daten abfragen mit SPARQL. Thomas Tikwinski, W3C.DE/AT

Katalogdaten als Linked Open Data aufbereiten und nutzen Teil 2: Technik

Suchen und Finden Geschäftsrelevante Informationen systemübergreifend finden, analysieren und aufbereiten Stefan Jaschke, IBM

Semantic Web: RDF und N-Tripel

RDF und SPARQL. Kursfolien. Karin Haenelt

Entity Search. Michel Manthey Arne Binder 2013

Apache Solr. Apache Solr. ALD:HS WiSe 2011/2012. Einleitung. Features. Implementation. Verwaltung. Benutzung

Neue Erkenntnisse aus unstrukturierten Daten gewinnen

Web Service Discovery mit dem Gnutella Peer-to-Peer Netzwerk

Apache Lucene und Oracle in der Praxis - Volltextsuche in der Cloud

Information Retrieval - Semantic Technologies

Pathfinding Path Query Processing on Very Large RDF Graphs & Learning Relations by Pathfinding

Datenbanken und Semantic Web

Das Portal für Medizinische Datenmodelle: mehr als medizinische Formulare mit semantischen Annotationen. Sarah Riepenhausen

Literatursuche in PubMed: Medical Subject Headings (MeSH)

ReKliEs-De Abschlussworkshop. Datensuche und Datendownload

Literaturdatenbanken

VO Sprachtechnologien, Informations- und Wissensmanagement

Linked Data Grundlagen Einführung ins Data Web

Modell und Implementierung einer temporalen Anfragesprache

Text Mining in der Biomedizin. Forschung am Lehrstuhl für Computerlinguistik in Jena Ekaterina Buyko Friedrich-Schiller-Universität Jena

Linked Open Data im Archivportal Europa

rdf2wp - Publikation von Daten als RDF mittels WordPress-Blogs

Freebase Eine Datenbank mit RDF-Tripeln zu Personen, Orten, Dingen( )

Information Retrieval Einführung

Praktikum Information Retrieval Wochen 12: Suchmaschine

Teamprojekt & Projekt

DARIAH-DKPro-Wrapper Nils Reimers

Veranstalter: Lehrstuhl DBIS - Prof. Georg Lausen Betreuer: Thomas Hornung, Michael Schmidt

GoPubMed - Ontologiebasierte. für die Lebenswissenschaften. Dipl. Inf. Andreas Doms Technische Universität Dresden Fakultät Informatik Biotec

design kommunikation development

Offene Daten und offene Software. Schweizer Statistiktage August 2018 Michael Grüebler

Hauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte

Semantic Web Technologies I

Open Access Netzwerk

Semantic Web Praktikum..und andere Praktika... WS 2004/05

Linked Samian Ware: Potentiale von Linked Data in der Archäologie. Florian Thiery M.Sc.

Integration des Graphischen Editors CISGraph für Lokale Grammatiken in die Suchmaschine WiTTFind

Federated Search: Integration von FAST DataSearch und Lucene

Das join² Statistikmodul

Hauptbibliothek Literaturrecherche für Gesundheitsberufe

Ausblick über den Tellerrand

Normierung und Standardisierung von Provenance-Modellen. PubFlow Workshop ( , Kiel)

Metadaten in Service Repositories

Portalstrategie der VZG. Reiner Diedrichs. Verbundzentrale des GBV (VZG)

Softwaretechnologie für die Ressourcenlinguistik

Softwarepraktikum. Textanalyse mit Java/Python. Franz Matthies

Die virtuelle Forschungsumgebung WissKI Museumsdokumentation im Semantic Web. Georg Hohmann Germanisches Nationalmuseum

Transkript:

Semantische Suche und Visualisierung von biomedizinischen Relationsdaten Johannes Hellrich Jena University Language & Information Engineering Lab Friedrich-Schiller-Universität Jena Tagung der Computerlinguistik-Studierenden, 2012 Johannes Hellrich Semantische Suche und Visualisierung 1 / 42

Über das JULIE Lab 2004 an der Friedrich-Schiller-Universität Jena neu gegründet Leiter: Prof. Dr. Udo Hahn Forschungsschwerpunkte: Informationsextraktion / Text Mining Information Retrieval: Suchmaschinen Wissensmodellierung und Ontologien (Ontology Engineering) Domänenkontext: Lebenswissenschaften Forschungsorientiert und drittmittelstark: JenAge (BMBF: nationaler Forschungskern zur Altersforschung) Mantra (EU: crosslinguales biomedizinisches Lexikonlernen) Ab 2013: AquaDiva (DFG-SFB: Textwissensmanagement zu Biogeosphären) Kontinuierliche Präsenz auf: ACL, EMNLP, COLING, LREC,... Exzellenten Mastern & Doktoranden stehen bei uns alle Türen offen! Johannes Hellrich Semantische Suche und Visualisierung 2 / 42

Inhalt Biomedizin und Computerlinguistik Biomedizin und Computerlinguistik Informationsflut Semantische Suche Relationen Suche RDF Einbindung in Semedico Visualisierung Visualisierung in der Biomedizin PPI Anzeige in Semedico Zusammenfassung Johannes Hellrich Semantische Suche und Visualisierung 3 / 42

Publikationsflut Biomedizin und Computerlinguistik Informationsflut Artikel in MEDLINE 15 10 5 10 6 0 1970 1980 1990 2000 2010 Jahr Jährlich ca. 5% mehr Artikel in MEDLINE (biomedizinische Literaturdatenbank) Johannes Hellrich Semantische Suche und Visualisierung 4 / 42

Biomedizin und Computerlinguistik Informationsflut PubMed Schlagwortsuche (vgl. Google) Basiert auf MEDLINE Suche über MeSH (Medical Subject Headings) Terminologie Artikel werden von Hand indexiert (nach MeSH) Freitextsuche + Suche nach MeSH Termen (Eingabe teilweise auf MeSH abgebildet, z.b. black death auf plague) Johannes Hellrich Semantische Suche und Visualisierung 5 / 42

Biomedizin und Computerlinguistik Informationsflut Probleme bei der Suche Ambiguität Synonymie Johannes Hellrich Semantische Suche und Visualisierung 6 / 42

Ambiguität Biomedizin und Computerlinguistik Informationsflut Eigennamen: Suche nach Leber Frau Leber (Autorin) Leber (Organ) Organismen: Suche nach IL-6 IL6_MOUSE IL6_PIG IL6_HUMAN Johannes Hellrich Semantische Suche und Visualisierung 7 / 42

Biomedizin und Computerlinguistik Informationsflut Synonymie brain-factor-1 FOXG1 hbf-2 bf1 FKHL4... 64 Möglichkeiten auf das Gen FOXG1 zu verweisen. Johannes Hellrich Semantische Suche und Visualisierung 8 / 42

Biomedizin und Computerlinguistik Semantische Suche Semedico Semantische Suchmaschine des JULIE Labs Basiert auf MEDLINE Artikel werden automatisch indexiert Facettierung zur Unterstützung der Frageformulierung und Orientierung im Termraum (25k Facetten) Johannes Hellrich Semantische Suche und Visualisierung 9 / 42

Biomedizin und Computerlinguistik Semedico Screenshot Semantische Suche Johannes Hellrich Semantische Suche und Visualisierung 10 / 42

Biomedizin und Computerlinguistik Relationen in Zeitungstexten Relationen Microsoft mehr_wert_als verklagt Google kauft Motorola Johannes Hellrich Semantische Suche und Visualisierung 11 / 42

Biomedizin und Computerlinguistik Relationen in Fachtexten Relationen Mensch infiziert_mit erkrankt_an HIV verursacht AIDS Johannes Hellrich Semantische Suche und Visualisierung 12 / 42

Biomedizin und Computerlinguistik Relationen Protein-Protein-Interaktionen (PPIs) Ein aktueller Schwerpunkt der biomedizinischen Forschung Biologische Datenbanken: Lassen menschliche Experten ausgewählte Zeitschriften nach Neuentdeckungen durchsuchen... Aus CL-Sicht: Relationen zwischen Named Entities Johannes Hellrich Semantische Suche und Visualisierung 13 / 42

Biomedizin und Computerlinguistik PPIs als Relationen Relationen TLR9 upregulates associated_with IL6 NCK1 Johannes Hellrich Semantische Suche und Visualisierung 14 / 42

Biomedizin und Computerlinguistik Relationenerkennung Relationen Entnommen aus Ananiadou et al.: Trends in Biotechnology, 2006;24(12). Johannes Hellrich Semantische Suche und Visualisierung 15 / 42

Biomedizin und Computerlinguistik Relationen Jena Relation Extractor (JREX) Nutzt Dependenzparsebäume State of the Art System: Platz 2 von 24 bei der BioNLP 09 Challenge Automatische Informationsextraktion statt Experten! Johannes Hellrich Semantische Suche und Visualisierung 16 / 42

Inhalt Suche Biomedizin und Computerlinguistik Informationsflut Semantische Suche Relationen Suche RDF Einbindung in Semedico Visualisierung Visualisierung in der Biomedizin PPI Anzeige in Semedico Zusammenfassung Johannes Hellrich Semantische Suche und Visualisierung 17 / 42

Suche RDF Anforderungen an die Relationsrepräsentation Suche nach nur teilweise spezifizierten Zusammenhängen, z.b.: Welches Virus steht in der Relation verursacht zu AIDS? Verknüpfung mit biomedizinischen Datenbanken Integration mit Terminologien/Ontologien wäre wünschenswert Johannes Hellrich Semantische Suche und Visualisierung 18 / 42

Suche RDF RDF als Lösung W3C Standard für Speicherung/Austausch semantischer Informationen Besteht aus Tripeln (Subjekt - Prädikat - Objekt) Die Elemente der Tripel sind URIs Kann mit Ontologien interagieren Ermöglicht Suche nach Zusammenhängen zwischen Proteinen Johannes Hellrich Semantische Suche und Visualisierung 19 / 42

RDF Beispiel Suche RDF Wikipedia was created by Jimmy Wales <http://en.wikipedia.org/wiki/wikipedia> <http://purl.org/dc/elements/1.1/creator> <http://en.wikipedia.org/wiki/jimmy_wales> Johannes Hellrich Semantische Suche und Visualisierung 20 / 42

Suche Einbindung in Semedico Indexbasierte Suche Bisher wurde Solr (Suchserver) zur Indexierung genutzt Solr speichert nun auch die Relationen in jedem Dokument Termbasiert ungeeignet zur Suche nach nur teilweise spezifizierten Zusammenhängen Ermöglicht Suche nach Publikationen zu einer Relation Johannes Hellrich Semantische Suche und Visualisierung 21 / 42

Suche Einbindung in Semedico Architektur des Prototypen Index Artikel Text Analyse RDF Anfrage Anfrage Webseite & Visualisierung Antwort Anfrage Benutzer Speicherung Relationen Semedico Analyse: UIMA Speicherung: Solr & Virtuoso Webseite: Tapestry Johannes Hellrich Semantische Suche und Visualisierung 22 / 42

Suche Einbindung in Semedico Verbindung mit dem bisherigen Semedico Johannes Hellrich Semantische Suche und Visualisierung 23 / 42

Inhalt Visualisierung Biomedizin und Computerlinguistik Informationsflut Semantische Suche Relationen Suche RDF Einbindung in Semedico Visualisierung Visualisierung in der Biomedizin PPI Anzeige in Semedico Zusammenfassung Johannes Hellrich Semantische Suche und Visualisierung 24 / 42

Visualisierung Visualisierung in Lehrbüchern Visualisierung in der Biomedizin Johannes Hellrich Semantische Suche und Visualisierung 25 / 42

Visualisierung Visualisierung mit Cytoscape Visualisierung in der Biomedizin Cytoscape das Standardprogramm für biomedizinische Visualisierung Johannes Hellrich Semantische Suche und Visualisierung 26 / 42

Visualisierung Visualisierung mit Cytoscape Web Visualisierung in der Biomedizin Online Version: Cytoscape Web Johannes Hellrich Semantische Suche und Visualisierung 27 / 42

Visualisierung Vergleich der Cytoscapeversionen Visualisierung in der Biomedizin Cytoscape Cytoscape Web max. Knoten: 10k+ ca. 200 Sprache: Java Flash & JS Formate: überlappend, u.a. XGMML Ausgeführt: Rechner des Benutzers Johannes Hellrich Semantische Suche und Visualisierung 28 / 42

Visualisierung PPI Anzeige in Semedico Visualisierung in Semedico: Übersicht Johannes Hellrich Semantische Suche und Visualisierung 29 / 42

Visualisierung PPI Anzeige in Semedico Visualisierung in Semedico: Detailansicht Johannes Hellrich Semantische Suche und Visualisierung 30 / 42

Visualisierung PPI Anzeige in Semedico Interaktivität Netzwerke um einzelne Knoten können neu geladen werden Alle Proteinnamen verweisen auf eine biomedizinische Datenbank (UniProt) Die als Beleg angegebenen Sätze verweisen auf den relevanten Artikel Johannes Hellrich Semantische Suche und Visualisierung 31 / 42

Inhalt Zusammenfassung Biomedizin und Computerlinguistik Informationsflut Semantische Suche Relationen Suche RDF Einbindung in Semedico Visualisierung Visualisierung in der Biomedizin PPI Anzeige in Semedico Zusammenfassung Johannes Hellrich Semantische Suche und Visualisierung 32 / 42

Zusammenfassung Zusammenfassung Semantische Suche und Visualisierung helfen bei der Informationssuche RDF eignet sich zur Speicherung von (biomedizinischen) Relationen Mein Prototyp erweitert die Semantische Suchmaschine Semedico um die Suche und Visualisierung von Relationen Ausblick: Usability Studie Stresstest Johannes Hellrich Semantische Suche und Visualisierung 33 / 42

Literatur I Anhang Quellen Lewandowski, D. Handbuch Internet-Suchmachinen Heidelberg, 2. Auflage 2011 Buyko, E. et al. Syntactic Simplification and Semantic Enrichment Trimming Dependency Graphs for Event Extraction Computational Intelligence, 27(4):610 644, 2011 Lu, Z. PubMed and beyond: a survey of web tools for searching biomedical literature Database, 2011: article ID baq036, 2011 Johannes Hellrich Semantische Suche und Visualisierung 34 / 42

Links I Anhang Quellen JULIE Lab http://www.julielab.de/ Medline Statistik http://www.nlm.nih.gov/bsd/index_stats.html PubMed http://www.ncbi.nlm.nih.gov/pubmed/ Semedico http://www.semedico.org BioNLP 09 http://www.nactem.ac.uk/tsujii/genia/sharedtask/ index.shtml RDF http://www.w3.org/rdf/ Johannes Hellrich Semantische Suche und Visualisierung 35 / 42

Links II Anhang Quellen Cytoscape Web http://cytoscapeweb.cytoscape.org/ Cytoscape http://www.cytoscape.org/ UIMA http://uima.apache.org/ Lucene http://lucene.apache.org/solr/ Virtuoso http://virtuoso.openlinksw.com/ Tapestry http://tapestry.apache.org/ Johannes Hellrich Semantische Suche und Visualisierung 36 / 42

Noch Fragen? Danke für eure Aufmerksamkeit! Danke für eure Aufmerksamkeit! Fragen? Johannes Hellrich Semantische Suche und Visualisierung 37 / 42

CL-Pipeline Auf Nachfrage Text Sentence Splitter Tokenizer POS-Tagger Output Johannes Hellrich Semantische Suche und Visualisierung 38 / 42

Auf Nachfrage UIMA Ursprünglich IBM, jetzt Apache Projekt Java (und C++) Zentraler Speicher für alle Annotationen (CAS) Typensystem für Annotationen Hohe Kombinierbarkeit von Pipelinekomponenten Johannes Hellrich Semantische Suche und Visualisierung 39 / 42

Auf Nachfrage Solr Apache Projekt Java Basiert auf Lucene (Inverser Index: Speichert die für ein Schlagwort relevanten Dokumente) DIY Suchmaschine Johannes Hellrich Semantische Suche und Visualisierung 40 / 42

Auf Nachfrage Virtuoso Kommerzielle Software, eingeschränkte Open Source Version Triplestore auf Basis einer Relationalen Datenbank Aus Java über JDBC per SPARQL abfragbar Gute Benchmarkergebnisse (Berlin SPARQL Benchmark) Johannes Hellrich Semantische Suche und Visualisierung 41 / 42

Auf Nachfrage Tapestry Apache Projekt Java Webseiten bestehen aus TML und Java Klasse TML: XHTML mit Skripten zum Einfügen von Werten Java Klasse: Stellt Werte zur Verfügung (Datenbankanbindung) Johannes Hellrich Semantische Suche und Visualisierung 42 / 42