Ontologie-Management Kapitel 3: Anwendungen

Ähnliche Dokumente
Ontologien und Ontologiesprachen

DSpace 5 und Linked (Open) Data. Pascal-Nicolas Becker Technische Universität Berlin German DSpace User Group Meeting 2014 Berlin, 28.

Linked Open Cultural Heritage.

Datenbanken in der Bioinformatik

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Linked Cultural Heritage.

Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik

Medical Data Models Ein offenes Repository Medizinscher Formulare

Daten, Information, Wissen explizites und implizites Wissen Expertensysteme (Aufgaben, Aufbau, Komponenten) Diagnoseziel Klassifikation

Semantic Web Services

Semantic Web Technologies I

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

GI-Technologien zur Umsetzung der EU-Wasserrahmenrichtlinie (WRRL): Wissensbasen. Teil 1: Einführung: Wissensbasis und Ontologie.

Bio Data Management. Kapitel 7 Annotationen

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Thema. Intelligente Agenten im Web

Medical Data Models Ein offenes Repository Medizinscher Formulare

Bio Data Management. Kapitel 8 Annotationen

TYPO3-Suchmaschinenoptimierung für Redakteure

!!!!T!!! Systems!() Multimedia Solutions

Linked Samian Ware: Potentiale von Linked Data in der Archäologie. Florian Thiery M.Sc.

YAGO YAGO. A semantic knowledge base. Paul Boeck. Humboldt Universität zu Berlin Institut für Informatik. Dezember /19

Was sind Ontologie-Editoren?

Ontologien. Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Ontologien: Konstrukte. Konzepte/Klassen

Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Norbert Fuhr

J.6 Programmierung eingebetteter Systeme

Die virtuelle Forschungsumgebung WissKI Museumsdokumentation im Semantic Web. Georg Hohmann Germanisches Nationalmuseum

SHARE_Personas Stimulierungsprojekt FFG Programm Benefit 5. Aussschreibung. Bernhard Wöckl Mai 2010

SUB-ID- VERWALTUNG MIT GPP SETUP-GUIDE FÜR PUBLISHER

Fragebogen. zur Erschließung und Sicherung von Online-Dokumenten. Auswahl von elektronischen Publikationen

Das Komplexe einfach machen

neofonie DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR

Workflow, Business Process Management, 4.Teil

Reasoner for the Semantic Web

1 Mathematische Grundlagen

Medizinische Nomenklaturen

Grundlagen der Künstlichen Intelligenz

Klausur Interoperabilität

Entwicklung eines Electronic Resource Management Systems für Bibliotheken auf Basis von Linked Data Technologien

» Weblösungen für HSD FM MT/BT-DATA

Semantik Visualisierung

Big Data Projekte richtig managen!

MedizinischeDokumentation. Wiederholung, Taxonomien, Ontologien, Terminologien

windream für Microsoft Office SharePoint Server

Integration verteilter Datenquellen in GIS-Datenbanken

Die TYPO3-Extension Publikationen

Expressionsdatenanalyse. Vorlesung Einführung in die Bioinformatik - Expressionsdatenanalyse

Freie und vernetzte Daten:

Implementation of a Framework Component for Processing Tasks within Threads on the Application Level

FRAGEBOGEN ANWENDUNG DES ECOPROWINE SELBSTBEWERTUNG-TOOLS

RDF und RDF Schema. Einführung in die Problematik Von HTML über XML zu RDF

ENTWICKLUNG VON MARKETINGZIELEN UND DIE AUSGESTALTUNG EFFEKTIVER MARKETINGINSTRUMENTE IM TOURISMUSMARKETING. Bad Schmiedeberg 20.

ROFIN App Benutzerhandbuch. Version 1.0

Dokumentation. Schnittstelle IKISS Bayerischer Behördenwegweiser. Stand:

Unterstützt HL7 die interdisziplinäre Zusammenarbeit?

Informatik. Christoph Treude. Elektronisches Geld. Studienarbeit

Manuskripte für Europeana und neue Tools für Geisteswissenschaftler: Das DM2E-Projekt

Einführung in die Fuzzy Logic

Software Engineering. Zur Architektur der Applikation Data Repository. Franz-Josef Elmer, Universität Basel, HS 2015

Produktvorstellung: CMS System / dynamische Webseiten. 1. Vorwort

Webalizer HOWTO. Stand:

... MathML XHTML RDF

Tritt beim Aufruf ein Fehler aus, so wird eine MessageBox mit dem Fehlercode und der Kommandozeile angezeigt.

Mehr Transparenz für optimalen Durchblick. Mit dem TÜV Rheinland Prüfzeichen.

Outlook Web App Kurzanleitung. Zürich, 09. Februar Eine Dienstabteilung des Finanzdepartements

Seminar Datenbanksysteme

User Manual Data 24. Login und Layout

Senioren ans Netz. schreiben kurze Texte. Lektion 9 in Themen aktuell 2, nach Übung 7

IVS Arbeitsgruppe Softwaretechnik Abschnitt Management komplexer Integrationslösungen

Entwicklung eines Electronic Resource Management Systems für Bibliotheken auf Basis von Linked Data Technologien

Wie ist das Wissen von Jugendlichen über Verhütungsmethoden?

Comparison of Software Products using Software Engineering Metrics

Thesaurusvisualisierung mit ICE-Map und SEMTINEL

2 Evaluierung von Retrievalsystemen

Die virtuelle Forschungsumgebung WissKI

Softwareentwicklungspraktikum Sommersemester Grobentwurf

Web Service Discovery mit dem Gnutella Peer-to-Peer Netzwerk

Semantische Reputationsinteroperabilität

Guideline. Facebook Posting. mit advertzoom Version 2.3

Frankfurt,

Big & Smart Data. bernard.bekavac@htwchur.ch

Klaus Schild, XML Clearinghouse Namensräume

Intelligentes Rechnungsformular Physiotherapie

Ein Tool für automatische Performancetests von Java3D Applikationen

Involvierte Institutionen

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

GDI-Business-Line 3.x Ticketverwaltung

Seminar Wissensmanagement

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Weiterentwicklung digitaler Bibliothekssysteme zu OpenArchives-Systemen

Dokumentenverwaltung

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik

07. November, Zürich-Oerlikon

Eine Schnittstelle für Arztpraxisdaten mittels einer Ontologie auf Basis von HL7 Version 3

Artenkataster. Hinweise zur Datenbereitstellung. Freie und Hansestadt Hamburg. IT Solutions GmbH. V e r s i o n

PDF/A. Mar$n Fischer

Kompetenzen und Aufgabenbeispiele Englisch Schreiben

Formale Sprachen und Grammatiken

Verwendung von Anforderungsbasierten Verfolgbarkeitsmetriken im Projektmanagement

Transkript:

Ontologie-Management Kapitel 3: Anwendungen Wintersemester 2013/14 Anika Groß Universität Leipzig, Institut für Informatik Abteilung Datenbanken http://dbs.uni-leipzig.de Die Folien zur Vorlesung Ontologie Management wurden von Dr. Michael Hartung erstellt.

Inhalt Beispiele von Realwelt-Ontologien Annotation Semantische Suche und Navigation Linked Data 2

Klassifikation von Ontologien Top-Level Ontology (Upper Ontology, Foundation Ontology) Domain Ontology Task Ontology Application Ontology Klassifikation nach Guarino, 1998 3

Ontologiebeispiele im Überblick Top-Level Ontologien... Basic Formal Ontology (BFO), General Formal Ontology (GFO) Standard Upper Merged Ontology (SUMO) OpenCyc WordNet Domänenontologien (Lebenswissenschaften)... Gene Ontology (GO) National Cancer Institute Thesaurus (NCIT) 4

BFO / GFO Basic Formal Ontology (BFO) Unterstützung der Informationsintegration bei wissenschaftlichen Arbeiten Hilfreich zur Entwicklung von Domänenontologien Sicherung von Konsistenz sowie Vermeidung von Redundanzen 39 Klassen: http://purl.bioontology.org/ontology/bfo General Formal Ontology (GFO) Integration von Objekten und Prozessen Informationen zu Zeit, Raum, Relationen, Rollen,... 45 Klassen: http://purl.bioontology.org/ontology/gfo BFO: http://www.ifomis.org/bfo GFO: http://www.onto-med.de/ontologies/gfo/ 5

SUMO Standard Upper Merged Ontology Drei Teile Upper Structural Ontology Mid-level Base Ontology Domain Ontologies: Wirtschaft, Transport, Geographie,... Ursprünglich nur generelle Konzepte Erweiterung im Laufe der Zeit SUMO: http://www.ontologyportal.org/ 6

OpenCyc / Cyc Cyc Von encyclopedia Aufbau einer umfassenden Ontologie und Wissensbasis für Allgemeinwissen (seit 1984) Teile frei verfügbar OpenCyc, ResearchCyc CycL sentences zur Wissensrepräsentation Unterscheidung von Individuen und Kollektionen (#$isa #$BillClinton #$UnitedStatesPresident) (#$genls #$Tree-ThePlant #$Plant) (#$capitalcity #$France #$Paris) Cyc: http://www.cyc.com/cyc OpenCyc: http://opencyc.org/ 7

WordNet Gruppierung englischsprachiger Wörter in Synonymmengen (synsets) Kurze, allgemeine Definitionen Semantische Relationen zwischen Synsets Unterscheidung von Substantiven (N), Verben (V), Adjektiven (Adj) und Adverbien (Av) 117.659 Synsets in Version 3.0 Relationen... Hypernym/hyponym (Ober- / Unterbegriffe) Meronym/holonym (Teil-Ganzes) Antonym (Gegensatzwort) WordNet: http://wordnet.princeton.edu/ 8

WordNet 9

Gene Ontology (GO) Gene Ontology Consortium Entwicklung einer gemeinsamen Sprache zur Annotation von molekularen Charakteristiken in Organismen Wissensaustausch Teilnehmer stellen GO-basierte Annotationen zur Verfügung Möglichkeit neuartiger Datenanalysen und Zusammenarbeit Projektziele: Management / Entwicklung der eigentlichen Ontologie Annotation von Genen / Genprodukten Tools / Werkzeuge für den Umgang mit GO Gene Ontology: http://www.geneontology.org/ 10

Verbreitung von GO AgBase 11 11

Gene Ontology (GO) Einteilung in drei Subdomänen Molecular Function (ca. 10.000 Konzepte) Elementare Aktivitäten / Aufgaben, durchgeführt von individuellen Genprodukten Bsp.: carbohydrate binding, ATPase activity Biological Process (ca. 20.000 Konzepte) Biologisches Ziel realisiert durch eine Menge molekularer Funktionen Bsp.: mitosis, purine metabolism Cellular Component (ca. 3.000 Konzepte) Ort oder Komplex (subzellulare Strukturen) Bsp.: nucleus, telomere, RNA polymerase II holoenzyme 12

Konzepte und Beziehungen in GO 13

National Cancer Institute Thesaurus (NCIT) NCI Thesaurus Referenzterminologie des NCI Krebsbezogene Themen für kollaborative Forschung Ca. 90.000 Konzepte organisiert in 20 Hauptkategorien Anatomie Genprodukte Krankheiten Medikamente... Konzeptinformationen Bevorzugter Name, Synonyme, Definitionen,... NCI Thesaurus: http://ncit.nci.nih.gov/ncitbrowser/ 14

Annotation Motivation Informationsflut in den Lebenswissenschaften Zehntausende Gene und gen-regulatorische Elemente (in versch. Spezies) Zahlreiche Interaktionen in komplexen molekularen Netzwerken Millionen von Publikationen... Zuordnung Hattori A, Tsujimoto M.: Processing of antigenic peptides by aminopeptidases. Biol Pharm Bull., 2004 der Funktionen, Prozesse, Interaktionen zu biologischen Objekten der enthaltenen Themen zu Publikationen... Nutzen maschinenverstehbarer Annotationen 15

Begriff Annotation Annotationen dienen der semantischen Beschreibung der Eigenschaften von Objekten Erfassung von Metadaten Möglichst einheitlicher Gebrauch der domänenspezifischen Begriffe Assoziationen eines zu beschreibenden Objekts zu den Begriffen eines Vokabulars bzw. den Konzepten einer Ontologie Genprodukte, Gene in Lebenswissenschaften mit zugeordneten Funktionen Produkte in Online-Shops annotiert mit ihren Eigenschaften 16

Arten von Annotationen in den Lebenswissenschaften - Biologische Objekte (Gene, Proteine, ) - Pathways, Netzwerke -... Experiment- Annotation MIAME, MGED... Annotation biologischer Objekte / Pathways GO, KEGG,... Annotation von Publikationen (indexing) MeSH, GO,... Annotation von klinischen Dokumenten ICD, SNOMED, LOINC,... MIAME MGED KEGG MeSH Minimum Information About a Microarray Experiment Microarray Gene Expression Data Kyoto Encyclopedia of Genes and Genomes Medical Subject Headings ICD SNOMED LOINC NCIT International Classification of Diseases Systematized Nomenclature of Medicine Logical Observation Identifiers Names and Codes NCI (National Cancer Institute) Thesaurus 17

Allgemeines Annotationsmodell Ontologie O 1 = (C, R) Ontologie O 2 = (C, R) Annotation-Mapping (S, O 1, A) Instanzquelle S = I Annotation-Mapping (S, O 2, A) C Menge von Konzepten R Menge von Relationen I Menge von Instanzen/Objekten A Menge von Annotationen / Korrepondenzen Annotation a=(i,c), aa, ii, cc object_id - concept_id 18

Beispiel: GO Annotationen Assoziation eines Proteins zu einem/r bestimmten biologischen Prozess / zellulären Komponente / molekularen Funktion Component: is integral to membrane TAP1 Process: peptide transport Function: protein heterodimerization activity 19

Beispiel: GO Annotationen 20

Beispiel: MeSH Annotationen MeSH = Medical Subject Headings 21

Qualität von Annotationen Annotationen können auf unterschiedlichste Art und Weise entstehen Erfassung weiterer Metadaten zu Annotationen Herkunft (provenance) Evidence Codes Kurator, Datum, Methode, Quelle, Referenzen,... GO Evidence Code (EC) Taxonomy All ECs Manually assigned (man man) Automatically assigned (auto auto) Obsolete (obs obs) Experimental (exp exp) Author Statement (auth auth) Curator Statement (cur ( cur) Computational Analysis (comp ( comp) EXP TAS NAS IC ND RCA IGC ISS IEA NR IDA IPI IMP IGI IEP High reliability ISO ISA ISM * http://www.geneontology.org/go.evidence L ow reliability 22

Klassische Informationssuche Keyword-Suche oftmals mit nicht relevanten Ergebnissen Bedeutungsunterschiede Homonyme Unterschiedlicher Kontext Keyword-Suche findet nicht alle relevanten Ergebnisse Synonyme Fehlende Kontextpräzisierung 23

Semantische Suche Suchmaschinen Document Retrieval Eingabe: Golf von 2000 Nachfrage zu Golf: (1) PKW, (2) Sportart, (3) Geographie,... Verfeinerung: PKW 24

Semantische Suche Suchmaschinen Document Retrieval Eingabe: Golf von 2000 Name: Volkswagen Golf Kategorie: Auto... Baujahr <Integer> Tech. Parameter Hubraum <Integer> Leistung <Integer>...... Nachfrage zu 2000: Baujahr oder technischer Parameter Verfeinerung: Baujahr Wissenrepräsentation (Ontologie, Linked Data) 25

Semantische Suche Suchmaschinen Document Retrieval Generelle Probleme Korrekte Interpretation der Suchphrase (Keywords) Korrekte Identifikation von Entitäten Automatische Disambiguierung Usability Personalisierung 26

Semantische Suche Suchmaschinen Fact Retrieval Eingabe in Suchmaschine: Welche Flughäfen gibt es in Berlin? (airports of Berlin) 27

GOPubMed Klassifikation von PubMed-Artikeln unter Verwendung von GO und MeSH 28

Linked Data Linked Open Data (LOD) bezeichnet im WWW frei verfügbare (RDF)-Daten Per URI identifiziert direkt via HTTP abrufbar Verweis auf andere Daten via URI möglich 29

LOD (September 2011) 30

Beispiel BBC Music 31

BBC Music Was ist das Besondere? Informationen werden aus externen, öffentlich verfügbaren Daten automatisch aktuell zusammengestellt (Wikipedia, MusicBrainz,...) Kein Screen Scraping der Website Kein spezielles API Daten liegen im (Semantic) Web als Linked Open Data vor Zugriff über gewöhnlichen HTTP Request Daten immer hoch aktuell, kein manueller Eingriff nötig 32

BBC Music als RDF 33

Linked Data Grundkonzept Aus dem Netz von Webseiten soll ein Netz aus Daten entstehen 4 Regeln von Berners Lee 1. Use URIs as names for things 2. Use HTTP URIs so that people can look up those names 3. When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL) 4. Include links to other URIs, so that they can discover more things. Linked Data Design Issues: http://www.w3.org/designissues/linkeddata.html 34

Regel 1 Eindeutige URIs als Bezeichnung für Objekte Matterhorn Cervino Cervin http://dbpedia.org/resource/matterhorn 35

Regel 2 HTTP URIs für Lookup http://dbpedia.org/resource/matterhorn 36

Regel 3 Nützliche Informationen bei Lookup einer URI 37

Regel 4 Links zu weiteren Ressourcen ( semantische Umgebung ) In Datenquelle selbst Zu anderen LOD Datenquellen 38

Zusammenfassung Beispielontologien Top-Level vs. Domänenontologien Ontologien zur Annotation Semantisch eindeutige Beschreibung von Objekten Zahlreiche Vorteile (z.b. Suche, Wissensaustausch,...) Semantische Suche Linked Data Ontologien zur Gestaltung eines Web of Data Designprinzipien 39