Profiling Linked Open Data with ProLOD. LiDDM: A Data Mining System for Linked Data

Größe: px

Ab Seite anzeigen:

Download "Profiling Linked Open Data with ProLOD. LiDDM: A Data Mining System for Linked Data"

Matilde Boer
vor 6 Jahren
Abrufe

1 Profiling Linked Open Data with ProLOD LiDDM: A Data Mining System for Linked Data Seminar aus maschinellem Lernen Frederik Janssen, Dr. Heiko Paulheim 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets

2 Profiling Linked Open Data with ProLOD 1. Linked Open Data 2. Profiling 3. Clustering and Labeling 4. Datatypes and Patterns LiDDM: A Data Mining System for Linked Data 1. Einführung 2. Linked Data Data Mining Modell 3. Tool Umgebung 4. Ergebnisse 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 2

3 Linked Open Data? 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 3

4 Traditionelle Profiling-methoden reichen nicht aus. Lösung : Clustering Labeling Web-basiertes Program : ProLOD Matching Begriffserklärung Typerkennung Patternerkennung 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 4

5 Profiling Erkennung einer Semantik von Spalten Zweck: Erkennung von einzigartigen Variablen Erstellung von Patterns 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 5

6 Profiling-LOD Methode Analyse einfacher Statistiken gruppieren Verfeinerung des Profilings 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 6

7 Proof-of-Concept 34,2 Mil. Tripeln Ohne Ontologie und 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 7

8 Clustering Ein gutes Clustering: semantikabhängig Probleme: - die Clusteranzahl ist nicht bekannt. - die Größe der Datasätze ClusterWurzel Netzwerk... Innovatio nen - der komplette Datensatz Media - Weitere Subclusters 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 8

Strategie bei einer großen Anzahl der Tripeln : Wurzelcluster im Vorbereitungsschritt erstellen Die Grenzwerte der Unähnlichkeiten gelten zur Bildung eines neuen Clusters

9 Strategie bei einer großen Anzahl der Tripeln : Wurzelcluster im Vorbereitungsschritt erstellen Die Grenzwerte der Unähnlichkeiten gelten zur Bildung eines neuen Clusters K-Means Algorithmus Labeling TF-IDF um die m-wichtigsten Terme zu berechnen. Beispiel für m = Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 9

Verständnisschema Für einen besseren Zusammenhang und für das Verständnis der Tripelsätze findet man - die assoziativen Attribute - die Assoziationsregeln im Cluster.

10 Verständnisschema Für einen besseren Zusammenhang und für das Verständnis der Tripelsätze findet man - die assoziativen Attribute - die Assoziationsregeln im Cluster. Als Ergebniss für ein Buch in Media kommen häufig author, isbn, genre vor. Das Modell ist in der Lage, sowohl die possitiven, als auch die negativen Assoziationsregeln zu erkennen, um die Abhängigkeiten zwischen Prädikaten in einem Cluster zu finden. 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 10

11 Zweite Möglichkeit : negative Abhängigkeiten. Equivalente Semantik No vel len Media t pu m o K e el i sp r e Domäne 1 Domäne 2 author => developer und developer => author : Konfidenz 90% Genauso mit name und title 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 11

X A Y X hat eine Verbindung zur Y durch Prädikat A Je mehr Einheiten durch A und B verbunden sind, desto höher ist der Zusammenhang der inversen Prädikatenpaare. debutworks Into the Wild z.b. für das Buch Into the Wild : author Jon Krakauer Jon Krakauer Into the Wild Tabelle der inversen Linkpaare : Wichtig für das semantische (Pre)-Clustering.

12 X A Y X hat eine Verbindung zur Y durch Prädikat A Je mehr Einheiten durch A und B verbunden sind, desto höher ist der Zusammenhang der inversen Prädikatenpaare. debutworks Into the Wild z.b. für das Buch Into the Wild : author Jon Krakauer Jon Krakauer Into the Wild Tabelle der inversen Linkpaare : Wichtig für das semantische (Pre)-Clustering. 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 12

13 Patterns Variablenverteilung in den Datentypen Im Bereich der Datentypen verteilt Patterns Normalisierte Patterns 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 13

14 ProLOD - Tool Preprocessing 1. Tripel umgewandelt in der Datenbank gespeichert A X Y 2. Clustering & Labeling 3. Jedem Tripel ein Pattern bzw. Datentyp zugewiesen Aufwand : 1 Tag mit DBPedia 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 14

15 Realtime Profiling 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 15

16 LiDDM A Data Mining System for Linked Data extrem wachsende verlinkte Daten: Sammeln von verschiedenen Quellen Integieren Für Statistiken verfeinern Deswegen hat man dafür ein Modell entwickelt 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 16

17 LOD komplex und dynamisch. - Fundament für Linked Data bei Web - verknüpft die Daten aus verschiedenen Domänen Bücher Music Domäne Filmen 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 17

18 - bietet verschiedene Datasätze in RDF-Format: 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 18

19 Wordl FactBook - Informationen aus der reellen Welt Data.gov - Vorhersage für künftige Statistiken DBPedia Die wertvollen, versteckten Informationen extrahieren. Daten aus Linked Data Cloud holen KDD durchführen Data Mining Technicken (assoziationen, Clustering) visualisieren 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 19

20 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 20

liefert die möglichen Prädikaten und eine spezifizierte Abfrage. 20.

21 Tool Umgebung Linked Data Data Mining Tool - LiDDMT Schritt 1. SPARQL- Endpunkt und Abfrage manuell automatisch Abfrage Builder liefert die möglichen Prädikaten und eine spezifizierte Abfrage. 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 21

22 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 22

23 Schritt 3. Fillterung Schritt 4. Schritt 5. Die Daten im geeigneten Format für Mining speichern : ARFF Attribute-Relation File Format 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 23

24 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 24

25 Ergebnisse World FactBook für Bildungsniveau der Arbeitskräfte in der Landwirtschaft, in der Wirtschaft und im Services-Bereich. Attribute sind in drei Klassen segmentiert; A_L: agriculture low A_M: agriculture medium A_H: agriculture high. Bildungsniveau in drei Klassen segmentiert: low 0-50 medium high Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 25

26 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 26

27 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 27

28 Danke für Ihre Aufmerksamkeit! 20. Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 28

29 Autoren: Proﬁling Linked Open Data with ProLOD : Christoph Böhm, Felix Naumann, Ziawasch Abedjan, Dandy Fenz, Toni Grütze, Daniel Hefenbrock, Matthias Pohl, David Sonnabend LiDDM: A Data Mining System for Linked Data : Venkata Narasimha Pavan Kappara, Ryutaro Ichise, O.P. Vyas Referenzen: Dez.2011 Fachbereich 20 Informatik Seminar aus maschinellem Lernen Oleksii Donets 29

Ähnliche Dokumente

tfacet: Hierarchisch-facettierte Exploration semantischer Daten mit Hilfe bekannter Interaktionskonzepte

IVDW-Workshop 2011, Berlin (6. Oktober) Institut für Visualisierung und Interaktive Systeme tfacet: Hierarchisch-facettierte Exploration semantischer Daten mit Hilfe bekannter Interaktionskonzepte Philipp