Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Größe: px

Ab Seite anzeigen:

Download "Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen"

Claus Hofmeister
vor 6 Jahren
Abrufe

1 Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014

2 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale Daten enthalten! Google Studie von 2008: 14.1 Milliarden Tabellen 154 Millionen relational Beispielanwendungen: Konstruktion von Knowledge Bases Erweiterung von lokalen Datenbanken ( DrillBeyond)

3 Herausforderung Name Pop Code Germany 81.9.de Berlin England 53.1.co.uk London France 65.7.fr Paris Beispielanfrage: Population, Capital of Germany Ziel: Spalten in Webtabelle auf Attributnamen in Anfrage mappen Attributlabel finden, die Spaltennamen ersetzen/spezifizieren/erweitern Im Beispiel: Name Country Pop Population Code Internet Code Capital

4 Inhaltsverzeichnis Motivation Attributlabel finden Ansatz über Knowledge Base Ansatz über Kontext der Tabelle Kombination beider Ansätze Evaluation

5 Attributlabel finden bisherige Ansätze: entweder über Inhalt der Tabelle und Knowledge Base oder über Webseite der Tabelle als bag of words

6 Attributlabel finden bisherige Ansätze: entweder über Inhalt der Tabelle und Knowledge Base oder über Webseite der Tabelle als bag of words Hier hybrider Ansatz: 1. über Inhalt der Tabellen mit Hilfe einer Knowledge Base

7 Attributlabel finden bisherige Ansätze: entweder über Inhalt der Tabelle und Knowledge Base oder über Webseite der Tabelle als bag of words Hier hybrider Ansatz: 1. über Inhalt der Tabellen mit Hilfe einer Knowledge Base 2. über Kontext der Tabelle mit Hilfe von NLP-Techniken

8 Inhaltsverzeichnis Motivation Attributlabel finden Ansatz über Knowledge Base Ansatz über Kontext der Tabelle Kombination beider Ansätze Evaluation

9 Knowledge Base YAGO YAGO Knowledge Base aus Wikipedia und Wordnet extrahierte universelle KB mit RDF(S) modellierte Ontologie: formale Repräsentation von Wissen in maschinenlesbarem Format modelliert als Graphstruktur

10 Strategie 1. Spaltenzellen auf Entitäten einer KB abbilden 2. YAGO-Klasse finden, die am wahrscheinlichsten eine Spalte repräsentiert

11 YAGO-Entitäten zu Berlin Quelle: MPI

12 Spaltenzellen auf Entitäten abbilden DBPedia Lookup Service gibt bei Eingabe eines Strings URIs von korrespondieren Entitäten aus Ergebnisse gerankt nach: Ähnlichkeit zum eingegebenen String PageRank der Wikipedia-Seite der Entität

13 Klassen und Distanzen Ergebnisse des Lookup Klassen und ihre Distanzen zu Entitäten mit Tiefensuche ermitteln

14 Scoring und Ranking Scoring rank Rang der im URI Lookup gefundenen URI distance taxonomische Distanz der Klasse zur Entität numuris Anzahl aller zurückgegebenen URIs score class = 1 rank 1 distance numuris Ranking (für jede Spalte) alle gefundenen Klassen erhalten Scorewert Werte für jede distinkte Klasse werden aufsummiert score Capital = 2 ( ) 3 = 2 3 analoge Berechnung für alle Klassen und Ausgabe einer sortierten Liste: [Capital(0.66), CIty(0.33), Celebrity(0.33), Person(0.17)]

15 Überlegung Nachteil des KB-Ansatzes: nur Named Entities können Individuen einer universellen KB sein greift nicht bei numerischen, boolschen Werte etc. Daher: zweiter Ansatz, der Kontext der Tabelle betrachtet Nutzen von NLP-Techniken zur Informationsextraktion

16 Inhaltsverzeichnis Motivation Attributlabel finden Ansatz über Knowledge Base Ansatz über Kontext der Tabelle Kombination beider Ansätze Evaluation

17 Extraktion des Kontextes Quelle: Wikipedia

18 Extraktion des Kontextes Quelle: Wikipedia Extraktion des Textes, der Tabelle umgibt Extraktion von Überschrift der Tabelle und des gesamten Abschnittes

19 Betrachtung des Kontextes

20 Betrachtung des Kontextes

21 Extraktion von Noun Phrases Algorithmus: 1. Extraktion der Noun Phrases aus Text, der Tabelle umgibt 2. Für jede Spalte 2.1 Suche nach Spaltennamen als Substrings in Noun Phrases 2.2 Ausgabe der Noun Phrases, sortiert nach Frequenz

22 Inhaltsverzeichnis Motivation Attributlabel finden Ansatz über Knowledge Base Ansatz über Kontext der Tabelle Kombination beider Ansätze Evaluation

23 Betrachtung des Kontextes etwa 20 % der betrachteten Spaltenüberschriften: Name oder Title Suche nach diesen als Substrings im Text nicht hilfreich

24 Suche nach YAGO-Klasse im Kontext etwa 20 % der betrachteten Spaltenüberschriften: Name oder Title Suche nach diesen als Substrings im Text nicht hilfreich Kombination beider Ansätze: Suche nach gefundenen YAGO-Klassenlabels im Kontext liefert hier: secondary schools

25 Inhaltsverzeichnis Motivation Attributlabel finden Ansatz über Knowledge Base Ansatz über Kontext der Tabelle Kombination beider Ansätze Evaluation

26 Evaluation Experimente Korpus mit 50 Wikipedia-Webtabellen Varianten mit YAGO Simple (reduzierte Version der KB) YAGO Full (volle KB) nur Kontext-Ansatz Bewertung des Top-Ergebnisses und aller Ergebnisse mit: 100 korrekt und hilfreich 50 korrekt, aber nicht hilfreich 0 falsch

27 Evaluation Schwierigkeit bei Kontext-Ansatz keine Handhabe, falsche oder uninformative Noun Phrases herauszufiltern z.b: city new york city, company following company Vergleich YAGO Simple/Full unerwartet bessere Ergebnisse mit YAGO Simple Klassen in YAGO Full oft zu spezifisch z.b.: British Formula Three Championship Driver Ergebnisse mit YAGO Simple Ergebnisse mit YAGO Full

28 Ansatzpunkte für zukünftige Arbeiten Bewertung der Qualität der extrahierten Noun Phrases über feature-basierten Machine-Learning Ansatz Erweiterung des Korpus auf beliebige Webseiten und Anpassung der Algorithmen

29 Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014

30 Noun Phrase Chunking Noun Phrase (Nominalphrase): nicht-rekursive Struktur, deren Kopf ein Nomen ist, dem null oder mehr Adjektive oder Nomen vorangestellt sind Noun Phrase Chunking gegeben: Part-of-Speech getaggter Text Grammatik (z.b. <Adj >* <N >+) Noun Phrase Chunker durchsucht den getaggten Text nach Phrasen, die der Grammatik entsprechen, und gibt diese als Liste aus. Beispiele für Noun Phrases: secondary school school internet code

31 Evaluation Precision Attributnamen: 0.66 Attributnamen (nur Named Entities): 0.73 Precision Attributnamen (nur NLP-Ansatz): 0.53 Precision Relationennamen: 0.89 Coverage ca. 46 % (1000 Tabellen betrachtet)

Ähnliche Dokumente

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten 16.08.2016 David Spisla Albert Ludwigs Universität Freiburg Technische Fakultät Institut für Informatik Gliederung Motivation Schwierigkeiten bei