Semantic Web: Resource Description Framework (RDF)

Ähnliche Dokumente

Weitere Decision-Support Anfrage- Typen

Big Data: Neue Entwicklungen im Datenbankbereich

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

1 topologisches Sortieren

Mai Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

Anmerkungen zur Übergangsprüfung

Wie Google Webseiten bewertet. François Bry

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Lernmaterial für die Fernuni Hagen effizient und prüfungsnah

WS 2002/03. Prof. Dr. Rainer Manthey. Institut für Informatik III Universität Bonn. Informationssysteme. Kapitel 1. Informationssysteme

Reporting Services und SharePoint 2010 Teil 1

Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz

Konzepte der Informatik

Er musste so eingerichtet werden, dass das D-Laufwerk auf das E-Laufwerk gespiegelt

Anleitung zur Daten zur Datensicherung und Datenrücksicherung. Datensicherung

Webhost Unix Statistik

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

SharePoint Demonstration

Synchronisierung von Transaktionen ohne Sperren. Annahme: Es gibt eine Methode, zu erkennen, wann eine Transaktion die serielle Ordnung verletzt.

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

Primzahlen und RSA-Verschlüsselung

1 Mathematische Grundlagen

Verknüpfte Daten abfragen mit SPARQL. Thomas Tikwinski, W3C.DE/AT

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

1. Einschränkung für Mac-User ohne Office Dokumente hochladen, teilen und bearbeiten

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Wie halte ich Ordnung auf meiner Festplatte?

Lichtbrechung an Linsen

Apache HBase. A BigTable Column Store on top of Hadoop

Algorithmik II. a) Fügen Sie in einen anfangs leeren binären Baum die Schlüsselfolge 20, 28, 35, 31, 9, 4, 13, 17, 37, 25 ein.

WS 2009/10. Diskrete Strukturen

Wir machen neue Politik für Baden-Württemberg

Handbuch ECDL 2003 Modul 2: Computermanagement und Dateiverwaltung Der Task-Manager

Erfahrungen mit Hartz IV- Empfängern

INDEX. Öffentliche Ordner erstellen Seite 2. Offline verfügbar einrichten Seite 3. Berechtigungen setzen Seite 7. Öffentliche Ordner Offline

Wir gehen aus von euklidischen Anschauungsraum bzw. von der euklidischen Zeichenebene. Parallele Geraden schneiden einander nicht.

Algorithmen und Datenstrukturen

Suchmaschinen. Universität Augsburg, Institut für Informatik SS 2014 Prof. Dr. W. Kießling 23. Mai 2014 Dr. M. Endres, F. Wenzel Lösungsblatt 6

Vorkurs Informatik WiSe 15/16

Anwendungsbeispiele Buchhaltung

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

4 Aufzählungen und Listen erstellen

Lieferschein Dorfstrasse 143 CH Kilchberg Telefon 01 / Telefax 01 / info@hp-engineering.com

Information Systems Engineering Seminar

Word 2010 Schnellbausteine

So funktioniert die NetWorker 7.5 Eigenschaft zum Sichern umbenannter Verzeichnisse ( Backup renamed Directories )

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Lokale Installation von DotNetNuke 4 ohne IIS

Eigene Dokumente, Fotos, Bilder etc. sichern

Mathematik für Information und Kommunikation

DOS-Sympas Scope Dateien in Excel einlesen

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Wie man Registrationen und Styles von Style/Registration Floppy Disketten auf die TYROS-Festplatte kopieren kann.

Anleitung zum ausfüllen des Finanzplans (beispiel National Turnier)

Idimager ein Bildverwaltungsprogramm-DAM Software

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Durch Wissen Millionär WerDen... Wer hat zuerst die Million erreicht? spielanleitung Zahl der spieler: alter: redaktion / autor: inhalt:

Algorithmen & Datenstrukturen 1. Klausur

Kryptographie in der Moderne

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

TREND SEARCH VISUALISIERUNG. von Ricardo Gantschew btk Berlin Dozent / Till Nagel

mit attraktiven visuellen Inhalten

Ablauf bei der Synchronisation und Sortierung von Dateien aus mehreren Kameras

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Windows Explorer Das unbekannte Tool. Compi-Treff vom 19. September 2014 Thomas Sigg

Analysis I für Studierende der Ingenieurwissenschaften

ACHTUNG: Es können gpx-dateien und mit dem GP7 aufgezeichnete trc-dateien umgewandelt werden.

Tragen Sie bitte im Anmeldefeld die Daten ein, die Sie von uns erhalten haben.

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

Informatik 12 Datenbanken SQL-Einführung

Das SQL-Schlüsselwort ALL entspricht dem Allquantor der Prädikatenlogik

SEMINAR Modifikation für die Nutzung des Community Builders

Einrichtung des Cisco VPN Clients (IPSEC) in Windows7

Der VALUEpilot NEU! Ihr Ass im Ärmel

OUTLOOK-DATEN SICHERN

Nachtrag zu binären Suchbäumen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Professionelle Seminare im Bereich MS-Office

Hilfen zur Verwendung der Word-Dokumentvorlage des BIS-Verlags

Database Exchange Manager. Infinqa IT Solutions GmbH, Berlin Stralauer Allee Berlin Tel.:+49(0) Fax.:+49(0)

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

GSD-Radionik iradionics Android-App

3. LINEARE GLEICHUNGSSYSTEME

teischl.com Software Design & Services e.u. office@teischl.com

Universal Gleismauer Set von SB4 mit Tauschtextur u. integrierten Gleismauerabschlüssen!

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

SICHERN DER FAVORITEN

1. Weniger Steuern zahlen

Die Online-Meetings bei den Anonymen Alkoholikern. zum Thema. Online - Meetings. Eine neue Form der Selbsthilfe?

Bedienungsanleitung für 3D PDF

.htaccess HOWTO. zum Schutz von Dateien und Verzeichnissen mittels Passwortabfrage

Wie können Sie eine Client Lizenz wieder freigeben?

Festplatte defragmentieren Internetspuren und temporäre Dateien löschen

Transkript:

Big Data Semantic Web: RDF Information Retrieval Map Reduce: Massiv parallele Verarbeitung Datenströme Peer to Peer Informationssysteme No SQL Systeme Multi-Tenancy/Cloud-Datenbanken

Semantic Web: Resource Description Framework (RDF) Triple-Datenmodell (Subjekt, Prädikat, Objekt) Meist graphische Visualisierung Subjekte und Objekte sind Knoten Prädikate sind gerichtete Kanten Von Subjekt-Knoten nach Objekt Knoten

Beispiel-RDF-Graph

Textuelle Darstellung des Graphen

Kurzform

Namenlose Knoten

Graph mit unbenannten Knoten

SPARQL: Die RDF Anfragesprache SELECT?Var1?Var2 $VarN WHERE {Muster1. Muster2. MusterM. } PREFIX ex: <http://www.example.org> SELECT?AutorenDesOldenbourgVerlags WHERE {?buch ex:autor?a.?a ex:nachname?autorendesoldenbourgverlags.?buch ex:verlegtbei <http://oldenbourg-verlag.de/ wissenschaftsverlag>. }

SPARQL: Die RDF Anfragesprache PREFIX ex: <http://www.example.org> SELECT?KempersBuecherTitel WHERE {?KempersBuecher ex:autor?k.?k ex:nachname "Kemper".?KempersBuecher ex:titel?kempersbuechertitel. }

SPARQL: Die RDF Anfragesprache Union PREFIX ex: <http://www.example.org> SELECT?KempersOderEicklersBuecherTitel WHERE { {?KempersBuecher ex:autor?k.?k ex:nachname "Kemper".?KempersBuecher ex:titel?kempersodereicklersbuechertitel. } UNION {?EicklersBuecher ex:autor?k.?k ex:nachname "Eickler".?EicklersBuecher ex:titel?kempersodereicklersbuechertitel. } }

SPARQL: Die RDF Anfragesprache optional PREFIX ex: <http://www.example.org> SELECT?KempersBuecherTitel?KempersBuecherISBN WHERE {?KempersBuecher ex:autor?k.?k ex:nachname "Kemper".?KempersBuecher ex:titel?kempersbuechertitel. OPTIONAL {?KempersBuecher ex:hatisbn? KempersBuecherISBN } }

SPARQL: Die RDF Anfragesprache filter

SPARQL: Die RDF Anfragesprache count-aggregation PREFIX ex: <http://www.example.org> SELECT COUNT?verlag WHERE {?buch ex:verlegtbei?verlag. } Für SQL-affine Leser ist diese Anfrage etwas gewöhnungsbedürftig, da man ja in der Tat die Bücher zählen will. Die SPARQL-Formulierung zielt aber darauf ab, die Anzahl der Vorkommnisse des Musters?buch ex:verlegtbei? verlag für jeden?verlag zu zählen.

Implementierung einer RDF- Datenbank: RDF-3X

B-Bäume so viele wie möglich

Kompressionstechnik: Dictionary und Präfix Jedes Tripel $(s,p,o)$ wird also genau 6 mal repliziert abgelegt -- allerdings in permutierter Subjekt/Prädikat/Objekt- Reihenfolge, nämlich $(p,s,o)$, $(s,p,o)$, $(p,o,s)$, $(o,s,p)$, $(s,o,p)$ und $ (o,p,s)$. Zusätzlich gibt es noch die sogenannten aggregierten Indexe, die die Anzahl der Vorkommen des jeweiligen Musters repräsentieren. Zum Beispiel bedeutet der Eintrag $(s,o,7)$, dass das Subjekt s siebenmal mit dem Objekt o in einer Beziehung steht -- mit beliebigem Prädikat. Das Speichervolumen wird dadurch (dramatisch) reduziert, dass man in den Blättern der Bäume eine Präfix-Komprimierung durchführt. Z.B. wird in dem zweiten Eintrag des SPO-Baums das Subjekt 0 weggelassen, da es identisch zum ersten Eintrag ist. In dem vierten Eintrag kann sogar die Subjekt- und die Prädikat-Kennung weggelassen werden, da beide identisch zum dritten Eintrag sind

Kompressionstechnik: Dictionary und Präfix Es werden aber nicht nur gleiche Präfixe weggelassen; zusätzlich wird auch anstatt des jeweiligen Codes nur die Differenz zum Code des Vorgänger-Tripels gespeichert. Der letzte Eintrag im SPO-Baum würde demnach als (-,1,1) gespeichert, da er in der ersten Komponente identisch zum Vorgänger-Tripel ist, in der zweiten und dritten Komponente ist die Differenz zum Vorgänger-Tripel jeweils 1. Diese Kompression ist sehr effektiv, da die Tripel in den Blattknoten ja fortlaufend sortiert sind und sich deshalb immer nur geringfügig vom Vorgänger-Tripel unterscheiden. Als Anker für diese Differenz-Kompression wird auf jeder Blatt- Seite immer nur ein vollständiges Tripel, nämlich das Erste, gespeichert.

Anfrageauswertung PREFIX ex: <http://www.example.org> SELECT REDUCED?AutorenDesOldenbourgVerlags WHERE {?buch ex:autor?a.?a ex:nachname?autorendesoldenbourgverlags.?buch ex:verlegtbei <http://oldenbourg-verlag.de/ wissenschaftsverlag>. } Dict-Lookup SELECT REDUCED?AutorenDesOldenbourgVerlags WHERE {?buch 7?a.?a 11?AutorenDesOldenbourgVerlags.?buch 3 4. }

Merge-Joins so weit das Auge reicht

Datenströme

Datenbank versus Datenstrom

Beispiel-Datenstrom

Datenstrom-Definition und einfache Anfrage

Subskriptions-Anfrage

Prädikat-Index

Bereichsanfrage

R-Baum-Index

Fenster-Anfrage

Auswertung: Short Auctions

Sliding Windows

Überlappende Fenster

Hot Items-Anfrage

Auswertung: Hot Item

Information Retrieval Informationsexplosion im Internet Ranking von Dokumenten um relevante Information zu finden Ähnlichkeit von Dokumenten (Dissertationen) zu erkennen

TF-IDF: Term Frequency Inverse Document Frequency

Relevanz-Ranking am Beispiel

Relevanz-Ranking am Beispiel

Invertierte Indexierung

Page Rank: Grundidee

Page Rank: Grundidee

Mathematisches Modell des PageRank

Mathematisches Modell des PageRank: unser Beispiel

Konvergenz und Dämpfung

PageRank für größeren Graph [aus Wikipedia]

HITS-Algorithmus: Hubs und Autoritäten

HITS-Algorithmus: Hubs und Autoritäten

Relationale HITS-Modellierung

Algorithmus

Algorithmus in SQL

Map Reduce

Join mit Map Reduce

Verbesserung nach Ullman

Map Reduce Skripsprache: PigLatin

Auswertung des HITS Algorithmus

Peer to Peer-Informationssysteme Seti@Home P2P number crunching Napster P2P file sharing / Informationsmanagement 57

Napster-Architektur 58

Gnutella-Architektur 59

DHT: Distributed Hash Table Basieren auf consistent hashing Vollständige Dezentralisierung der Kontrolle Dennoch zielgerichtete Suche 60

CHORD 61

CAN 62

No-SQL Datenbanken Internet-scale Skalierbarkeit CAP-Theorem: nur 2 von 3 Wünschen erfüllbar Konsistenz (Consistency) Zuverläassigkeit/Verfügbarkeit (Availability) Partitionierungs-Toleranz No-SQL Datenbanksysteme verteilen die Last innerhalb eines Clusters/Netzwerks Dabei kommen oft DHT-Techniken zum Einsatz 63

Schnittstelle der No-SQL Datenbanken Insert(k,v) Lookup(k) Delete(k) Extrem einfach è effizient Aber: wer macht denn die Joins/Selektionen/ è das Anwendungsprogramm 64

Konsistenzmodell: CAP Relaxiertes Konsistenzmodell Replizierte Daten haben nicht alle den neuesten Zustand Vermeidung des (teuren) Zwei-Phasen-Commit-Protokolls Transaktionen könnten veraltete Daten zu lesen bekommen Eventual Consistency Würde man das System anhalten, würden alle Kopien irgendwann (also eventually) in denselben Zustand übergehen Read your Writes-Garantie Tx leist auf jeden Fall ihre eigenen Änderungen Monotonic Read-Garantie Tx würde beim wiederholten Lesen keinen älteren Zustand als den vorher mal sichtbaren lesen 65

Systeme MongoDB Cassandra Dynamo BigTable Hstore SimpleDB S3 66

Multi-Tenancy / Cloud-Datenbanken

Multi-Tenancy Datenbankarchitekturen

Shared Tables

Private Relationen

Erweiterungs-Relationen

Universal Relation

Zerlegung: Pivot-Relationen

Ballung logisch verwandter Werte: Chunk Tables

Key/Value-Store

XML-basiertes Schema