Integration lokaler Daten in ifuice



Ähnliche Dokumente
Historical Viewer. zu ETC5000 Benutzerhandbuch 312/15

3a Open BIM Workflow - Import und Weiterbearbeitung

ebanking Business Edition

Handbuch ECDL 2003 Basic Modul 7 Abschnitt 1: Information Kopieren aus dem Browser

zur Sage New Classic 2015

Was ist das Tekla Warehouse

Import und Export von Übergängern

Inhaltsverzeichnis. Einleitung und Danksagung 11 Für wen ist dieses Buch? 12 Voraussetzungen für die Arbeit mit diesem Buch 13 Danksagung 13

07. Kapitel: Abfragen erstellen Geschätzter Zeitaufwand: 45 Minuten

Neue Funktionen in Efficy 2012 Summer

Workshop Was nicht passt, wird passend gemacht? tekom, Frühjahrstagung 2014 Augsburg, icms GmbH

TYPO3-Publikations-Daten aus TYPO3 exportieren und in Citavi importieren

e-banking-business Edition Bestehende Lastschriftvorlagen in SEPA-Lastschriftvorlagen umwandeln

Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

WinCVS Version 1.3. Voraussetzung. Frank Grimm Mario Rasser

AutoCAD Dienstprogramm zur Lizenzübertragung

XML. App. Crossmedia Strategien mit InDesign CSS HTML. E-Books. InDesign. Daten Web. Konvention DPS. Formate

Aktuelles SEPA Umstellung

PDF-Dateien erstellen mit edocprinter PDF Pro

Mit dieser Schnittstelle können Sie Ihre Studierenden in das Studentenmodul übernehmen.

Datenübernahme aus Fremdprogrammen

Gehen Sie zu den folgenden Seiten um Informationen zum Verfahren für das Importieren von Sendungsdaten zu erhalten:

Anleitung zum LPI ATP Portal

1. Adressen für den Serienversand (Briefe Katalogdruck Werbung/Anfrage ) auswählen. Die Auswahl kann gespeichert werden.

Datenabgleich. Meine Welt auf einen Blick erleben.

Integration verteilter Datenquellen in GIS-Datenbanken

Arbeiten mit UMLed und Delphi

PowerPoint Vorträge professionell umsetzen

Geodatenmanagement und -harmonisierung mit GeoKettle

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Fragebogen. zur Erschließung und Sicherung von Online-Dokumenten. Auswahl von elektronischen Publikationen

Web-Services - die GIS-Zukunft?

1. Schritt: Export Datei im Fidelio erstellen

Hilfe Bearbeitung von Rahmenleistungsverzeichnissen

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Ausschreiben mit Jobplattformen. Folie 1

Das SIARD Format und die zugehörige Tool-Landschaft

Sie können sich eine Kurzanleitung zum Fachmodul Heimarbeit im PDF-Format anzeigen lassen. Klicken Sie in der Menüspalte auf Hilfe > Hilfe anzeigen.

Version White Paper ZS-TimeCalculation und die Zusammenarbeit mit dem iphone, ipad bzw. ipod Touch

ACCESS das Datenbankprogramm. (Einführung) DI (FH) Levent Öztürk

In S-Firm wird nur angeboten die Datei auf Diskette zu exportieren; die Einstellung für HBCI ist ausgegraut.

Das neue Tech Data Software Download Portal

Handbuch zum Statistiktool Pentaho Stand: Dezember 2013

Schnelleinstieg. Datenimport für die EXPOSÉ - Familie. Import von Adress / Objektdaten aus MS Excel. = Datenintegration aus anderen Lösungen

Software Engineering. Zur Architektur der Applikation Data Repository. Franz-Josef Elmer, Universität Basel, HS 2015

Installations- und Bedienungsanleitung für Macro Excel_Table Version 10

Hyperlink-Erstellung in InDesign für

Anleitung zum erstellen einer PDF-Datei aus Microsoft Word

FH-SY Chapter Version 3 - FH-SY.NET - FAQ -

Windows 8.1. Grundkurs kompakt. Markus Krimm, Peter Wies 1. Ausgabe, Januar inkl. zusätzlichem Übungsanhang K-W81-G-UA

TYPO3 Slide Lightwerk GmbH

3 Open BIM Workflow ARCHICAD und Allplan

CM Studio.DMS-SERVER 2012

P&P Software - Adressexport an Outlook 05/29/16 14:44:26

Willkommen. Benutzerhandbuch für die OECD Online-Bibliothek

Einzelkurs-Auswertung Microsoft Office Excel 2010 Aufbauseminar

Programmers Manual Geodaten Ver. 2.0

XML-Austauschformat für Sicherheitsdatenblätter

Bedienungsanleitung Anlassteilnehmer (Vereinslisten)

Produktinformation eevolution Wordintegration

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

LSF - Lehre Studium Forschung Einführung in LSF

Inventur. Bemerkung. / Inventur

Tevalo Handbuch v 1.1 vom

Übernahme von Daten aus einem bestehenden Outlook-Profil bzw. einem anderen Exchange Server

Herzlich willkommen zum Kurs "MS Word 2003 Professional"

Mobiles SAP für Entscheider. Permanente Verfügbarkeit der aktuellen Unternehmenskennzahlen durch den mobilen Zugriff auf SAP ERP.

Treppensoftware Programme. Hilfe - 3D Plus Online. konstruieren/präsentieren

Neues aus dem 52 North WPS Projekt. Benjamin Proß, FOSSGIS,

Kursangebot gesammelt einlesen

Die Captimizer BTZ-Datei 2015

Der Empfänger, der das Verschlüsselungsverfahren noch nicht nutzen kann, erhält folgende

OUTLOOK-DATEN SICHERN

Wer bin ich? Februar 06 Andrea Hauch 1

W&W Einwohnerkontrolle. EKI Version mit Objektregister (Datenimport)

GIN WEAVER. Kontextsensitive Bereitstellung von Informationen: Relevante Inhalte zur richtigen Zeit

V8i und PDS. Bentley Technical Support

Hinweise zum elektronischen Meldeformular

Schritt 1. Anmelden. Klicken Sie auf die Schaltfläche Anmelden

Screening for Illustrator. Benutzerhandbuch

1. Einführung. 2. Alternativen zu eigenen Auswertungen. 3. Erstellen eigener Tabellen-Auswertungen

Kurzübericht der implementierten Funktionen der Fachinformatiker -== Info Datenbank ==-

bitte auf den Button Baudaten-Fenster öffnen klicken. (oder über das Menü -> STAMMDATEN -> BAUDATEN anklicken)

Integrierte Literaturverwaltung in Moodle

Beispiel des Zusammenführens der APV- Tabellen Stammdaten und Verlaufsdaten mithilfe von Access

Inhaltsverzeichnis. Einleitung und Danksagung. 1 Was ist SharePoint? - Ein Überblick.

Datenbanken Kapitel 2

AutoTexte und AutoKorrektur unter Outlook verwenden

Import von Daten aus Word nach KlasseDozent

Internet online Update (Mozilla Firefox)

Funktionsübersicht. Modul: redcms_keycontract

Kurzanleitung fu r Clubbeauftragte zur Pflege der Mitgliederdaten im Mitgliederbereich

Symbolbearbeitung mit EPLAN 5.60/5.70 DIC_***D.SYM

Nutzer-Synchronisation mittels WebWeaver Desktop. Handreichung

White Paper WinLine "Business Intelligence"

Transkript:

: Integration lokaler Daten in ifuice Bearbeiter: Sarah Gebhardt Betreuer: Andreas Thor Seite 1

Motivation Warum eine Integration lokaler Daten? Viele Infos im Web, aber andere Listen im Web, aber nicht für mich relevant schon gesuchte Infos nicht mehr aktuell Welche Informationen sind überhaupt für mich interressant zu mühsam einzeln rauszusuchen Private Daten gemeinsam mit Webdaten darstellen und verknüpfen Konkret: Welche Autoren interessieren mich überhaupt? Von welchen Autoren besitze ich Publikationen Wie kann ich stets die aktuellen Publikationslisten der für mich interessanten Autoren abfragen? Wie bekomme ich zusätzliche Informationen zu Autoren (Homepage, E-mail)... Seite 2

Überblick Überblick 1. Motivation 2. ifuice - Kurzeinführung 3. Architektur - Lokale Datenquellen - Wrapper - Extractor - Manipulator 4. Beispiel 5. Zusammenfassung / Ausblick Seite 3

ifuice ifuice Information Fusion utilizing Instance Correspondences and Peer Mappings Integrationsplattform - Datenquellen durch Mappings verbunden - Mappings durch Mediator gesteuert - High-Level-Operatoren Siehe Paper und Vortrag von Herrn Andreas Thor Seite 4

ifuice Datenstruktur in ifuice DBLP Physische Datenquellen (Physical Data Sources - PDS) Webdaten (DBLP), lokale Daten (Dateien) Aufgeteilt in logische Datenquellen Author Publication Conference Logische Datenquellen (Logical Data Sources - LDS) definiert durch eine PDS und einen Objekttyp enthalten Objektinstanzen Objektinstanzen (Object Instances) beziehen sich auf ein Objekt der realen Welt besitzen eine Menge von Attributen ein Attribut entspricht einer eindeutigen ID Publication DBLP Name: Generic schema matching with Cupid URL: http://vldb.org... Conference: VLDB 2001 Authors: Jayant Madhavan, Philip A. Bernstein, Erhard Rahm Seite 5

ifuice Mappings Gerichtete Beziehung zwischen LDS Metadaten: Bedeutung des Mappings - Semantische Mapping Typen z.b. publications of author (PubAuth) - Same Mappings vs. Association Mappings same = Gleichheitsbeziehung zwischen PDS e.g. LocalAuthors (id) DBLP authors (id) Instanzdaten: Instanzkorrespondenzen Materialisiert: Mappingtabellen (z.b. XML-Datei) On-the-fly: Ergebnis einer Berechnung (z.b. durch einen Web-Service) Seite 6

Lokale Datenquellen Typische lokale Datenquellen Unstrukturierte Daten PDF, Word, PowerPoint - Informationen: Publikationen, Berichte, Präsentationen, Skripte Semistrukturierte Daten E-mails - Informationen: Korrespondenzen, Informationen (z.b. Name <-> E-mail Adresse) Strukturierte Daten Excel-Tabellen, CSV, Adressbücher - Informationen: Listen von Objekten mit ihren Informationen, Verbindungen zwischen Objekten in z.b. Kreuztabellen (Objektkorrespondenzen) Seite 7

Anforderungen Anforderungen Finden / Extraktion lokale Datenquellen suchen / durchsuchen und Daten extrahieren Manipulation extrahierte und importierte Daten bearbeiten Export / Import Objektinstanzen u. Mappings, Format kompatibel mit ifuice (XML) Aufbau modular, erweiterbar Seite 8

Architektur MappingResults (XML-Format) Objectinstances (XML-Format) ifuice load, export User import export Extractor Manipulator Object Extraction Mapping Extraction Objects Manipulation Mapping Manipulation Extractor Library Wrapper Library extract Repository (Data Models) Local Data Sources PDF Excel E-mail... Seite 9

Wrapper Library Wrapper Library Wrapper Module zur Aufbereitung für Extractor lokale Daten auslesen / umwandeln jeweils einheitliches Zielformat - z.b. CSV, Excel, Calc (OO) -> einheitliches Tabellenformat ein Extractor Modul für mehrere Formate Probleme wie kommt man an Daten - Verzeichnis lesen, Datei lesen, Desktop Search (Google Desktop Search) Format der Daten - offengelegt (PDF), nicht offengelegt (Excel, Word), Bibliotheken Struktur Seite 10

Wrapper Library Wrapper Library (Fortsetz.) PDF Wrapper Modul Finden von PDF-Dateien über GDS / Angabe von Verzeichnis Grundlage PostScript, originalgetreue Darstellung, Druckausgabe, plattformunabhängig Probleme: - Struktur, Passwortschutz, gescannte PDFs existierende Bibliotheken: - frei: pdftohtml, Pdfbox, xpdf, itext,..., kommerziell: Adobe SDK, JPedal,... Erweiterung Text-Extrahierungs-Klasse von Pdfbox - fontsize, font-family, text-align, position Ergebnis für Extractor - Menge von Line-Objekten, die TaggedText-Objekte enthalten Seite 11

Wrapper Library Wrapper Library (Fortsetz.) Excel Wrapper Modul einzelne Datei einlesen Probleme: - kein öffentliches Format -> viele nicht unterstützte Objekte existierende Bibliotheken: - frei: POI, JExcel, Open Office,..., kommerziell: Microsoft Excel,... Ergebnis für Extractor - Tabellen-Objekt mit Row- und Cell-Objekten Vorteil Wrapper Library: solange Schnittstellenformat zu einem Extractor Modul erzeugt wird, ist Implementierung des Wrapper Moduls egal Seite 12

Extractor Library Extractor Library Extractor Module zum Extrahieren von Daten extrahieren von Objektinstanzen und Mappings aus Wrapper - Extractor Schnittstellenformat Benutzerinteraktion Umwandlung in Manipulator Schnittstellenformat Implementierung egal, wenn entsprechende Schnittstellenformate eingehalten Probleme Datenspezifisch Seite 13

Extractor Library Extractor Library (Fortsetz.) PDF Extractor Modul Extrahieren von Titeln und Autoren - aufgrund Position, Größe, Abstand, Ausrichtung, Stil Probleme: - Reihenfolge der Elemente, Kodierung, Vielfältigkeit Ergebnisse: - Qualität abhängig von Domäne, Kodierung Table Extractor Modul Einfache Tabelle -> Objektinstanzen, Kreuztabelle -> Objektinstanzen + Mappings Benutzerinteraktion - Bedingungen für Mappings (z.b. regulärer oder arithmetischer Ausdruck) Seite 14

Manipulator Manipulator Aufbereitung Objektinstanzen... Objekte - sortieren, filtern, löschen, einfügen Attribute - löschen, hinzufügen, editieren und Mappings - Mappings löschen, hinzufügen sortieren - Gruppieren nach PDS - LDS bearbeiten, Attribute editieren Import / Export zu ifuice - Datenformat: XML-Datei Seite 15

Schnittstelle ifuice Schnittstelle zu ifuice XML-Austauschformat für Objectinstances <OBJECTINSTANCES objecttype="authors" datasource="favauthors" idattribute="id"> <OBJECT> <DISPLAYVALUE>Erhard Rahm</DISPLAYVALUE> <ATTRIBUTE> <NAME>id</NAME> <VALUE>ld34</VALUE> </ATTRIBUTE> <ATTRIBUTE> <NAME>Last Name</NAME> <VALUE>Rahm</VALUE> </ATTRIBUTE> <ATTRIBUTE> <NAME>First Name</NAME> <VALUE>Erhard</VALUE> </ATTRIBUTE> </OBJECT> </OBJECTINSTANCES> Seite 16

Schnittstelle ifuice Schnittstelle zu ifuice (Fortsetz.) XML-Austauschformat für MappingResults <MAPRESULT inputdatasource="favauthors" inputobjecttype="authors" inputidattribute="id" outputdatasource="dblp" outputobjecttype="authors" outputidattribute="key"> <MAP confidence="0.907071"> <OBJECT datasource= FavAuthors > <DISPLAYVALUE>Erhard Rahm</DISPLAYVALUE>... </OBJECT> <OBJECT datasource= DBLP > <DISPLAYVALUE>Rahm:Erhard</DISPLAYVALUE>... </OBJECT> </MAP> </MAPRESULT> Seite 17

Beispiel Was haben für mich interressante Autoren publiziert? Lokale Daten extrahieren Wrapper Library 0 Extractor Library Seite 18

Beispiel Was haben für mich interressante Autoren publiziert? (Fortsetz.) Lokale Daten aufbereiten export XML Datei ObjectInstances FavAuthors Seite 19

Beispiel Was haben für mich interressante Autoren publiziert? (Fortsetz.) Mapping EINMAL erzeugen: Lokale Autoren -> DBLP $FavAuthors := loadinstances(author@favauthors) $FavAuthorsDBLP := map($favauthors, ViaGoogle2DBLP) ifuice XML Datei XML Datei Objectinstances FavAuthors MappingResult FavAuthorsDBLP Seite 20

Beispiel 2 Was haben für mich interressante Autoren publiziert? (Fortsetz.) Mappings EINMAL aufbereiten -> erzeugte Datei nutzbar für alle weiteren Anfragen an ifuice $FavAuthorsDBLPCleaned := loadmapresult (FavAuthors2DBLP@Local) $FavPubs := map (range ($FavAuthorsDBLPCleaned), DBLP.AuthPub) $Result := compose ($FavAuthorsDBLPCleaned, $FavPubs) Autoren -> Publikationen XML Datei Autoren -> Publikationen-> Citations MappingResult FavAuthorsDBLPCleaned Autoren -> ACM Seite 21

Beispiel 2 Wer publizierte als Mitglied des Programmkomitees? Mapping aus lokalen Daten extrahieren Seite 22

Beispiel 2 Wer publizierte als Mitglied des Programmkomitees? (Fortsetz.) Daten verknüpfen - gewünschtes Ergebnis: Autoren, die im Programmkomitee waren und gleichzeitig publizierten - $M1 := map(range ($AuthorsDBLPCleaned), DBLP.AuthPub) $M2 := map(range ($ConfsDBLPCleaned), DBLP.ConfPub) $M3 := compose($authorsdblpcleaned, $M1, inverse($m2), inverse($confsdblpcleaned)) - Autoren -> Konferenzen in denen sie publiziert haben mit Hilfe FavAuthorsDBLPCleaned - $AuthorIsPCMember := intersect ($PCMember, $M3) Lokal Author $AuthorsDBLPCleaned PCMember Author DBLP DBLP.AuthPub Publication Conference $ConfsDBLPCleaned DBLP.ConfPub Conference Seite 23

Zusammenfassung Zusammenfassung u. Ausblick Daten finden, extrahieren, aufbereiten importieren / exportieren <-> ifuice basierend auf Wrapper und Extractor Modulen Probleme vom Anfang gelöst - relevante Daten finden (z.b. Autoren, von denen man Publikationen besitzt) - nach einmaliger Extraktion und Aufbereitung immer aktuelle Informationen - Darstellung lokaler Daten zusammen mit externen Daten... Ausblick neue Möglichkeiten der Extraktion lokaler Daten Verknüpfung des Personal Information Management mit Webdaten Seite 24