Veranstalter: Lehrstuhl DBIS - Prof. Georg Lausen Betreuer: Thomas Hornung, Michael Schmidt 21.10.2008



Ähnliche Dokumente
Teamprojekt & Projekt

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Wie Google Webseiten bewertet. François Bry

Anleitung auf SEITE 2

Softwareentwicklungsprozess im Praktikum. 23. April 2015

Grundlagen der Theoretischen Informatik, SoSe 2008

Webseiten sind keine Gemälde. Webstandards für ein besseres Web. Webstandards für ein besseres Web

Linked Samian Ware: Potentiale von Linked Data in der Archäologie. Florian Thiery M.Sc.

Artenkataster. Hinweise zur Datenbereitstellung. Freie und Hansestadt Hamburg. IT Solutions GmbH. V e r s i o n

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Teamprojekt & Projekt

ECDL Europäischer Computer Führerschein. Jan Götzelmann. 1. Ausgabe, Juni 2014 ISBN

Anleitung über den Umgang mit Schildern

1 topologisches Sortieren

Konzepte der Informatik

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Softwareentwicklungspraktikum Sommersemester Grobentwurf

Grundlagen der Künstlichen Intelligenz

Version smarter mobile(zu finden unter Einstellungen, Siehe Bild) : Gerät/Typ(z.B. Panasonic Toughbook, Ipad Air, Handy Samsung S1):

Hilfedatei der Oden$-Börse Stand Juni 2014

Erfolgreich suchen im Internet

Wir beraten und vermitteln alle Formen der Kinderbetreuung.

Historical Viewer. zu ETC5000 Benutzerhandbuch 312/15

Erstellen eigener HTML Seiten auf ewon

Pfötchenhoffung e.v. Tier Manager

Online-Sendungsverfolgung. Morgenpost Briefservice GmbH

Das Social Semantic Web

Technical Note 0606 ewon

Outlook Web App Kurzanleitung. Zürich, 09. Februar Eine Dienstabteilung des Finanzdepartements

Anleitung zum neuen Überaumbuchungssystem der Hochschule für Musik und Tanz Köln

Vermeiden Sie es sich bei einer deutlich erfahreneren Person "dranzuhängen", Sie sind persönlich verantwortlich für Ihren Lernerfolg.

Anwendungsbeispiele Sign Live! Secure Mail Gateway

Mai Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

RDF und RDF Schema. Einführung in die Problematik Von HTML über XML zu RDF

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

Anleitung zum Herunterladen von DIN-Vorschriften außerhalb des internen Hochschulnetzes

Layoutmodelle. Steffen Schwientek Große Klostergasse Friedberg schwientek@web.de Web :schlaukopp.org

Matrix42. Matrix42 Cloud Trial Erste Schritte. Version

TYPO3-Suchmaschinenoptimierung für Redakteure

Informationsblatt Induktionsbeweis

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

Informationen zum neuen Studmail häufige Fragen

Shopz Zugang Neuanmeldung

Programmers Manual Geodaten Ver. 2.0

Benutzung der LS-Miniscanner

Benutzerhandbuch - Elterliche Kontrolle

Anleitung auf SEITE 2

mit attraktiven visuellen Inhalten

4 Aufzählungen und Listen erstellen

Datenbanken Kapitel 2

GEVITAS Farben-Reaktionstest

Beweisbar sichere Verschlüsselung

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

Software-Engineering SS03. Zustandsautomat

Die Statistiken von SiMedia

Was sind Ontologie-Editoren?

Lehrer: Einschreibemethoden

Formale Systeme, WS 2012/2013 Lösungen zu Übungsblatt 4

Umgang mit Schaubildern am Beispiel Deutschland surft

Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor

Anleitung zum Anlegen und Bearbeiten einer News in TYPO3 für

Dokumentation für das Checkoutsystem von Freshworx

Website freiburg-bahai.de

Zwischenablage (Bilder, Texte,...)

SUB-ID- VERWALTUNG MIT GPP SETUP-GUIDE FÜR PUBLISHER

Erstellen eines Wordpress-Blogs

Ressourcen-Beschreibung im Semantic Web

Kleines Handbuch zur Fotogalerie der Pixel AG

Hans-Günter Rolff. Zielvereinbarungen

Web Grundlagen zum Spidering

Doku zur Gebäudebrüter Datenbank

Erste Schritte ANLEITUNG Deutsche Sportausweis Vereinsverwaltung Schnittstelle zum Portal des Deutschen Sportausweises unter

Leichtathletik Datenverarbeitung Handbuch für Ausrichter

Backend

Dokumentation Bonuspunkteverwaltung. Verfasser(in) / Autor: Check it Consulting

Zweisprachigkeit im Dokumentationsportal

Software Engineering. Zur Architektur der Applikation Data Repository. Franz-Josef Elmer, Universität Basel, HS 2015

Leitfaden Internet-Redaktion kursana.de

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Installation von Druckern auf dem ZOVAS-Notebook. 1. Der Drucker ist direkt mit dem Notebook verbunden

Referenzen TYPO3 Projekt Slider für Reiseberichte Stand: Februar 2015

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Kompetitive Analysen von Online-Algorithmen

Anleitung Homepage TAfIE

Toolbeschreibung: EVERNOTE

Hochschule Ravensburg-Weingarten. Technik Wirtschaft Sozialwesen. Projektarbeit

Ihre Fragen unsere Antworten rund um die Fusion der Sparkassen Wesel und Dinslaken-Voerde-Hünxe. Mehrwert der Fusion. Das Wichtigste vorab:

Grundlagen Software Engineering

Prozessorientiertes Asset Management und Mobile Workforce (unter Android)

B12-TOUCH VERSION 3.5

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Abi-Retter-Strategien: Texterörterung. Das komplette Material finden Sie hier:

Installationshinweise für OpenOffice Portable auf einem Wechseldatenträger Stand: 27. März 2003 LS Stuttgart, Kaufmännische ZPG

Access Grundlagen für Anwender. Andrea Weikert 1. Ausgabe, 1. Aktualisierung, Juli inkl. zusätzlichem Übungsanhang ACC2010-UA

GEONET Anleitung für Web-Autoren

WORKFLOW DESIGNDOKUMENT

Windows. Workshop Internet-Explorer: Arbeiten mit Favoriten, Teil 1

Wie Sie mit Mastern arbeiten

Erfahrungen mit Hartz IV- Empfängern

Transkript:

Veranstalter: Lehrstuhl DBIS - Prof. Georg Lausen Betreuer: Thomas Hornung, Michael Schmidt 21.10.2008

Laut Studienordnung Master/Diplom: 16ECTS/15KP Entspricht: 480 Semesterstunden = 34h/Woche pp p.p. Teamgröße: 3-4 Studenten Schriftliche Ausarbeitung: ca. 15-25 Seiten p.p. Mündlicher Präsentation: ca. 15min p.p. ANMELDUNG DER PROJEKTTEILNAHME BEIM PRÜFUNGSAMT IST ERFORDERLICH UND VERBINDLICH

Zeit und Ort: Dienstag 14-16 Uhr (c.t.) Raum:SR01-016 016, Geb. 101 Anwesenheitspflicht für alle Teilnehmer Zu Beginn: wöchentliche Treffen Später: 2-wöchentliche Treffen mit Kurzpräsentationen beider Teams; ggf. Besprechung von Problemen Weitere individuelle Termine auf Anfrage

Gemeinsame Arbeit an einem großen Projekt Eigenständiges Recherchieren und Arbeiten Verbesserung der individuellen Programmierfähigkeiten (hier: Java, PHP, HTML) Einarbeiten it in neue Themen (hier: RDF und Suchmaschinen) Probleme bei größeren Projekten Kennen und Lösen lernen Ef Erfahrungen im Umgang mit Datenbanken sammeln

Gute Team-interne Organisation Aufteilung von Verantwortung Erfüllen von Verantwortung Einhalten von Fristen Gegenseitige g Hilfe und Unterstützung Saubere Definition von Schnittstellen Nutzen entsprechender Software (z.b. SVN) Einbringen individueller Fähigkeiten Spezialisierung auf Teilgebiete, ohne den Blick für das Ganze zu verlieren

Insbesondere (aber nicht ausschließlich) Umfang und Schwierigkeit der geleisteten Arbeit/Implementierung Teamleistung: ein gelungenes Projekt wirkt sich in der Regel positiv auf die Noten einzelner Teammitglieder aus Rolle und Mitarbeit im Team (Koordination etc.) Qualität des Codes (Formatierung, Dokumentation) Individuelle Ausarbeitung Mündlicher Vortrag

Entwicklung einer RDF-Suchmaschine Komponente 1: Crawler Komponente 2: Ranking-Schema für RDF Komponente 3: Design von Indexstrukturen und effiziente Suche auf den extrahierten und gerankten RDF-Daten

RDF-Dokumente WWW User Suchinterface (z.b. Java-Applet in Browser) Suche nach Such- Ergebnisse DBIS Lausen Suche starten! Suche Ranking Crawler DB

Am Ende: Ein einziges voll funktionsfähiges System, das alle Komponenten beinhaltet Suche nach DBIS Lausen Suche starten! Suche Crawler Ranking DB

Ziel Extraktion von RDF-Daten aus dem WWW Speichern dieser Daten in der Datenbank Automatisches Verfolgen von RDF-Links, um weitere Dokumente zu finden Intelligente Suchstrategien (z.b. Vermeidung von Duplikaten, parallele Anfragen etc.) Mehr zum Thema Crawling und Indexstrukturen Mehr zum Thema Crawling und Indexstrukturen zur Suche am nächsten Dienstag!

Datenformat Vom W3C standardisiert, ausführliche Informationen unter http://www.w3.org/rdf/ w3 Ursprüngliche Idee: Annotation von Webseiten mit maschinenlesbaren Meta- Informationen Datenformat basiert auf Tripeln der Form (Subjekt, Prädikat, Objekt)

Jedes Tripel repräsentiert einen Wissensfakt, z.b. (Article1, dc:title, SPARQL SPARQL ) Darstellung eines Tripels als eine gerichtete t Kante in einem Graphen möglich Article1 dc:title SPARQL

Formale Definition: Gegeben drei Mengen: U Uniform Resource Identifiers (URIs) B Blank Nodes ( leere Knoten ) L - Literale Ein RDF Tripel ist eine Element aus der Menge (B U) x U x (B L U) Beispiel: (Article1, dc:title, SPARQL ) URI URI Literal

Eine RDF Datenbank D (auch Graph Graph genannt) ist eine Menge von RDF Tripeln, formal D (B U) x U x (B L U) Beispiel: D = { (Article1, dc:title, SPARQL ), (Article1, dcterms:issued, 2000 ), (Article1, swrc:journal, Journal1), } Serialisierung von RDF Daten in verschiedenen Formaten möglich, z.b. NTriples, N3, RDF/XML,

W3C RDF Primer http://www.w3.org/tr/rdf-primer/ Vorlesungsfolien FGIS http://dbis/index.php?course=ws0708/spezialvorlesung/formale%20grundlagen%20von%20informationssystemen/folien.html (Vorlesungen 7.12.2007 und 12.12.2007) RDF Tutorial http://www.w3schools.com/rdf/default.asp Friend-of-a-Friend Projekt http://www.foaf-project.org/ org/ RDF ist ein wesentlicher Bestandteil des Team-Projekts und jeder sollte sich bis zur nächsten Woche entsprechend einarbeiten

Hyperlink Ranking-Schema zum Bewerten der Bedeutung von HTML-Seiten Idee 1: Seiten mit vielen Idee 1: Seiten mit vielen eingehenden Links tendentiell wichtiger als andere!

Hyperlink Ranking-Schema zum Bewerten der Bedeutung von HTML-Seiten Idee 2: Seiten mit eingehenden Links von wichtigen Seiten tendentiell wichtiger!

Definition PageRank-Algorithmus PR u, v: Web-Seiten F u : Menge aller Webseiten auf die u verlinkt B u : Menge aller Webseiten die auf u verlinken N u := ΙF uι: Anzahl der Webseiten auf die u verlinkt N: Anzahl aller Webseiten (sh. Folie 21) PR(u) := PR(v)/N v v B u Detaillierte Beschreibung http://dbpubs.stanford.edu:8090/pub/showdoc.fulltext?lang=en&doc=1999-66&format=pdf&compression=

PR(u) := PR(v)/N v =PR(B)+PR(B)+PR(B) 1 2 ) + 3 ) v B u u B 1 B 2 B 3 B u = { B 1, B 2, B 3 } mit N B1 =N B2 = N B3 =1

Erweiterung: Damping-Faktor PR(u) := ((1-d)/N) + d * PR(v)/N v v B u Intuition: Random Surfer Model d: Wahrscheinlichkeit dass Benutzer einem Link folgt; 1-d: Nutzer ist gelangweilt beginnt neue Surf-Session (z.b. Browser Bookmarks) ((1-d)/N): Wahrscheinlichkeit dass Benutzer per Zufall auf u klickt (bei neuer Session) d * PR(v)/N v : Wahrscheinlichkeit dass ein v B u Benutzer durch randomisiertes Surfen auf Seite u landet

Exakte Lösung schwierig und aufwendig, da rekursive Formel für Echtdaten (Millionen/Milliarden von RDF-Tripeln, d.h. Kanten im RDF Graphen) nicht realisierbar Iteratives Lösungsverfahren liefert sehr gute Ergebnisse schon bei wenigen (<100) Iterationen; mehr Informationen unter http://pr.efactory.de/d-pagerank-algorithmus.shtml

Interpretation von RDF Graphen: Knotenals Interpretation von RDF-Graphen: Knoten als Webseiten, Prädikate als Links

Prädikate stellen Links dar Prädikate stellen Links dar. URIs mit vielen eingehenden Links sind tendentiell wichtiger!

Mit Hilfe vorheriger Beobachtung kann ein Ranking für Graphknoten unmittelbar mit dem Page-Rank Algorithmus berechnet werden Jedoch spielt bei RDF noch eine zweite Komponente eine Rolle: Informationsgehalt Person1 first name first name Person2 last name mail phone Informationsgehalt von Person2 Informationsgehalt von Person2 höher, daher tendentiell wertvoller als Person1!

Informationsgehalt kann nach Inversion der Kanten mit dem PageRank Algorithmus (im Folgenden PR - genannt) berechnet werden: Person1 Person2 Gesamt-Ranking eines Knotens n könnte sich dann (mit Skalierfaktoren α und β) ergeben als R(u) =α*pr(u) α +β*pr β - (u)

Single-Keywort Suche kann direkt auf den PageRanks der einzelnen RDF-Elemente aufbauen Ziel dieses Projekts: Suche nach mehreren Keywörtern gleichzeitig Siehe z.b. B. Aleman-Meza, C. Halaschek, I. B. Arpinar, and da. Sheth: Context-Aware Semantic Association Ranking In SWD Workshop, 2003. Aufgabe: eigenständiges Entwickeln von Lösungsstrategien für dieses Problem

Das Semantische Web und RDF titel Buch1 RDF Daten und die SPARQL- Anfragesprache titel Buch2 autor autor autor autor Person1 Peter Meier Person2 Frank Frey Person3 hatstudent Person4 Peter Gross Anfrage: Peter + RDF

Das Semantische Web und RDF titel Buch1 RDF Daten und die SPARQL- Anfragesprache titel Buch2 Was wird bei der Anfrage als Antwort zurückgegeben? autor autor autor autor Person1 Peter Meier Person2 Frank Frey Person3 hatstudent Person4 Peter Gross Anfrage: Peter + RDF

Das Semantische h Web und RDF autor Person1 RDF RDF Daten und die SPARQLAnfragesprache titel titel Buch1 Buch2 autor autor Person2 autor Person3 hatstudent Peter Meier Frank Frey Was wird bei der Anfrage als Antwort zurückgegeben? Person4 Peter Gross Anfrage: Peter + RDF

Das Semantische Web und RDF titel Buch1 RDF Daten und die SPARQL- Anfragesprache titel Buch2 Was wird bei der Anfrage als Antwort zurückgegeben? autor autor autor autor Person1 Peter Meier Person2 Frank Frey Person3 hatstudent Person4 Peter Gross Anfrage: Peter + RDF

Das Semantische Web und RDF titel Buch1 RDF Daten und die SPARQL- Anfragesprache titel Buch2 Was wird bei der Anfrage als Antwort zurückgegeben? autor autor autor autor Person1 Peter Meier Person2 Person3 hatstudent Person4 Peter Gross Anfrage: Peter + RDF

Das Semantische h Web und RDF autor Person1 RDF RDF Daten und die SPARQLAnfragesprache titel titel Buch1 Buch2 autor autor Person2 Wie werden die unterschiedlichen Antworten gerankt? autor Person3 hatstudent Peter Meier Frank Frey Person4 Peter Gross Anfrage: Peter + RDF

Einlesen in RDF Einlesen in andere Gebiete, je nach Zuständigkeit Interne Aufteilen der Team-Zuständigkeiten Roadmap 28.10.: Vortrag über Crawler und Indexstrukturen zur effizienten Suche 04.11.: Vorstellung der Konzepte beider Teams 11.11.: Fertigstellung eines kompletten Entwurfs, Systemarchitektur etc.; Start der Implementierung