Ontology Learning. Michael Büttner. 25. Juli 2006

Größe: px

Ab Seite anzeigen:

Download "Ontology Learning. Michael Büttner. 25. Juli 2006"

Dorothea Fuhrmann
vor 5 Jahren
Abrufe

1 25. Juli 2006

2 Inhalt Was ist? Der Ablauf beim Lernen von Ontologien Ansatz von Jannik und Wiederhold Ansatz von Rigau RDR Knowledge Base Ansatz von Suryanto and Compton

3 Was ist? Was ist? Der Ablauf beim Lernen von Ontologien Ontologien aus einer großen Datenmenge (z.b. vielen Web-Seiten) von Hand zu erstellen ist ein langwieriger und ressourcenintensiver Prozess. Es gibt Ansätze diesen Prozess teilweise zu automatisieren. Diese Automatisierung kann mittels Techniken des maschinellen Lernens realisiert werden.

4 Was ist? Der Ablauf beim Lernen von Ontologien

5 Der Ablauf beim Lernen von Ontologien Was ist? Der Ablauf beim Lernen von Ontologien

7 Terme, die häufig in domänen-spezifischen Texten auftreten, lassen auf ein relevantes Konzept schließen Die reine Termfrequenz ist nicht aussagekräftig genug Man benötigt zur Identifikation charakteristischer Wörter noch eine zusätzliche Gewichtung Standardmaß tfidf (term frequency - inverse document frequency)

8 Die Termfrequenz lef l,d = n l k d n k in einem gegebenen Dokument d D gibt einen Hinweis auf die Bedeutung dieses Terms l für das Dokument d Die Dokumentfrequenz df l ist die Anzahl der Dokumente im Korpus D in welchen der Term l vorkommt Die inverse Dokumentfrequenz misst die allgemeine Bedeutung des Terms tfidf l,d = lef i,d log( D df l ) und tfidf l = d D tfidf l,d Das Wort l ist charakteristisch falls tfidf l,d > θ

9 Ermitteln von Subclass-of -Relationen zwischen Termen, die in einer hierarchischen Beziehung zueinander stehen verschiedene Möglichkeiten: eine auf Statistik basierende Extraktion mit Hilfe von Clustering eine auf Statistik basierende Extraktion mit Hilfe von Klassifizierung die Verwendung lexiko-syntaktischer Muster zur Extraktion

10 Clustering I Gruppieren von Konzepten aufgrund einer Bewertung ihrer Ähnlichkeit bzw. Unterschiedlichkeit Kriterien sind hierbei Daten über das Vorkommen und die Häufigkeiten von Wörtern in einem Korpus Distribution nach Harris (1968): Terme die im Kontext anderer Terme häufig auftreten, tendieren dazu eine ähnliche Bedeutung zu haben

11 Clustering II Top-Down-Clustering: Beginnend mit der Menge aller Konzepte als ein Cluster Eine Cluster wird rekusiv in mehrere Cluster aufgeteilt Die Blätter der Hierarchie bilden die einzelnen Konzepte Bottem-Up-Clustering: Anfangs bildet jedes Konzept einen Cluster Entsprechend der Ähnlichkeiten werden neue Cluster gebildet Am Ende befinden sich alle Konzepte in einem Cluster bzw. die Cluster sind so verschieden, dass sie nicht weiter zusammen gefasst werden können

12 Klassifikation Zum Verfeinern einer bereits vorhandenen Taxonomie (z.b.: WordNet) Klassifikation neuer Terme in die vorhandene Konzepthierarchie Anlernen eines Klassifizierers (z.b.: k nearest neighbor) mithilfe eines Trainingskorpus Der angelernte Klassifizierer kann dann für einen noch nicht klassifizierten Term t ein Konzept vorschlagen zu dem t eine Unterklasse ist

13 Lexiko-Syntaktische Muster I Ansatz von Marti A. Hearst (1992) Suche nach lexikalischen und syntaktischen Mustern (beschrieben als reguläre Ausdrücke) definierende Sprachmuster: Appositionen ( Der NP type NP token... ) z.b.: Der Parteivorsitzende Gerhard Schröder sagte... Copula (... NPtoken ist (ein) NP type... ) z.b.: Gerhard Schröder ist Parteivorsitzender. Benennungen (... NPtype genannt/namens NP token... ) z.b.: Ein Abgeordneter namens Gerhard Schröder hatte...

14 Lexiko-Syntaktische Muster II exemplifizierende Sprachmuster:... NP 1 (, NP i )* und andere NP type... z.b.: Gerhard Schröder, Edmund Stoiber und andere Politiker NP type wie NP token... z.b.: Abgeordnete, wie Gerhard Schröder... Unter den NP type Verb NP token... z.b.: Unter den Abgeordneten sprach Gerhard Schröder als NP type, außer/ausgenommen/bis auf NP token... z.b.: Die Abgeordneten, ausgenommen Gerhard Schröder... Auch als Hearst-Pattern bezeichet

15 Lexiko-Syntaktische Muster III Ein besonders einfaches Muster: Teilphrasen Zugrundeliegende Annahme: Jeden Nominalphrase, die eine andere enthält ist eine Instanz (oder Unterklasse) des enthaltenen Konzepts (z.b. Feldsalat ist ein Unterkonzept von Salat) Vorteil: nur in seltenen Fällen unkorrekt Nachteil: vergleichsweise geringe Ausbeute

16 Suchen von Assoziationsregeln um interessante Beziehungen und Verbindungen zwischen einzelnen Bestandteilen einer großen Datenmenge zu finden Ausnutzung syntaktischer Strukturen und statistischen Daten über das Vorkommen in einem Textkorpus Hintergrundwissen aus einer bereits bestehenden Konzepthierarchie Algorithmus liefert Vorschläge für interessante binäre Relationen zwischen Konzepten

17 Beispiel (Maedche, Staab 2003) Mecklenburg s schönstes Hotel liegt in Rostock. Neue Beziehungen: (Region, Hotel) und (Hotel, Stadt) Als Hintergrundwissen wird eine Ontologie aus der Domäne Tourismus verwendet is-a(hotel, Unterkunft), is-a(unterkunft, Organisation) Für das Begriffspaar (Region, Hotel) werden auch die Paare (Region, Unterkunft) und (Region, Organisation) untersucht

18 Ausgangspunkt ist eine bestehende generische Ontologie (z.b.: WordNet) Annahme: Das Auftreten eines Konzepts oder einer Relation in einem domänenspezifischen Korpus lässt auf die Relevanz des Konzeptes oder der Relation schließen Reine Auftrittshäufigkeiten sind nicht aussagekräftig genug Auftrittshäufigkeiten eines Ontologieeintrags die aus einem domänenspezifischen Korpus gewonnen wurden werden mit den Auftrittshäufigkeiten in einem anderen Korpus verglichen

19 Ansatz von Jannik und Wiederhold Ansatz von Rigau Ansatz von Jannik und Wiederhold Ansatz von Rigau

20 Ansatz von Jannik und Wiederhold Ansatz von Jannik und Wiederhold Ansatz von Rigau 1. Extraktion eines gerichteten Graphen mittels einer algebraischen Extraktionstechnik jedes Headword und jede Beschreibung sind Knoten jedes Wort in einer Beschreibung ist eine Kante zu einem Knoten der das entsprechende Headword besitzt 2. Anwendung des PageRank-Algorithmus jeder Knoten i bekommt eine Gewichtung PR i = 1 d N + d PR j j C j es gibt source- und sink-knoten 3. Relativierung der Wichtigkeiten der Relationen

21 Ansatz von Rigau Ansatz von Jannik und Wiederhold Ansatz von Rigau Definitionen eines Eintrags werden durchsucht um ein Hyperonym des Eintrags zu finden der definiert wird ( genus word ) Anwenden einer Word-Sense Disambiguation (WSD) auf das ( genus word ) um die Bedeutung zu bestimmen in der es verwendet wird Beispiel aus dem Englischen: Das Wort lily ist definiert als any liliaceous plant of the genus Lilium having showy pendulous flowers ; Das Wort plant wird als genus-word identifiziert und per WSD wird festgestellt, dass damit Pflanze und nicht Fabrik gemeint ist

22 RDR Knowledge Base Ansatz von Suryanto and Compton RDR Knowledge Base Ansatz von Suryanto and Compton

23 RDR Kowledge Base RDR Knowledge Base Ansatz von Suryanto and Compton Ripple Down Rules Das Wissen ist ähnlich einem Entscheidungsbaum strukturiert Jeder Koten ist eine Regel Verschiedene RDRs wie etwa Single Classification Ripple Down Rules (SCRDR), Multiple Classification Ripple Down Rules (MCRDR), Nested Ripple Down Rules (NRDR) und Repeat Inference Multiple Classification Ripple Down Rules (RIMCRDR) SCRDR sind am einfachsten und wie folgt strukturiert: IF cond 1 AND cond 2 AND... AND cond n THEN conclusion Ein solcher Knoten hat zwei Kinder: EXCEPT und ELSE

24 Beispiel für einen RDR-Baum RDR Knowledge Base Ansatz von Suryanto and Compton

25 Ansatz von Suryanto and Compton I RDR Knowledge Base Ansatz von Suryanto and Compton Extraktion einer Menge von Klassen aus einer RDR Knowledge Base Eine Klasse ist eine Menge verschiedener Regelpfade die zur selben Schlussfolgerung führen Ein Regelpfad zum Knoten n besteht aus allen Bedingungen der Regeln in den Vorgängerknoten sowie den Bedingungen von der Regel in n Ausgehend von der ursprünglichen Wissensdatenbank und der Menge der Klassen versucht man 3 Arten von Relationen zu finden: subsumption, mutual-exclusivity und similarity

26 Ansatz von Suryanto and Compton II RDR Knowledge Base Ansatz von Suryanto and Compton Idee: Alle zu einer Klasse gehörenden Regeln gruppieren und eine quantitative Maßzahl ϕ für einen Relation zwischen zwei Klassen bestimmen ϕ liefert ein Maß an Vertrauen ob eine Relation existiert oder nicht subsumtion(a,b), falls Klasse A nur existiert wenn Klasse B existiert aber nicht andersherum mutual-exclusivity(a,b), falls Klasse A und B niemals zusammen auftreten similarity(a,b), die Klassen A und B haben die gleichen Bedingungen (aber unterschiedliche Konklusionen)

27 RDR Knowledge Base Ansatz von Suryanto and Compton Übersicht über verschiedene Ansätze des Ontology Learnings Quelle Methode genutztes Feature Hauptintension reiner Text Clustering Syntax Extrahieren Association Rules Syntax, Tokens Extrahieren Frequency-based Syntax Pattern matching Syntax Extrahieren Klassifikation Syntax, Semantik Verfeinern Wörterbuch Information extraction Syntax Extrahieren Page Rank Tokens - Knowledge base Concept induction Relationen Extrahieren

28 RDR Knowledge Base Ansatz von Suryanto and Compton Fragen?

Ähnliche Dokumente

Ontologie-Extraktion aus Texten

Ontologie-Extraktion aus Texten PTI911 - Wissensmanagement erstellt und vorgetragen von: Christian Kretzschmar Agenda Einführung Was ist Ontologie? Ziele & Anwendungsgebiete Ontologie-Extraktion Konzepte