Clustering von Internetdiensten für aktive Ontologien

Ähnliche Dokumente
Clustering von Internetdiensten für aktive Ontologien

Abbildung von Webformularen auf aktive Ontologien

Eine Frage vorab. Wer hier im Saal ist an der Entwicklung. autonomer Fahrzeuge. beteiligt?

Exploration und Klassifikation von BigData

Programmieren in natürlicher Sprache: Alice-Kontrollstrukturen

Ontologies are us: A unified model of social networks and sema

Programmieren in natürlicher Sprache: Automatische Code-Generierung

Anwendersoftware. Thema 7 Dialoggestaltung mit HTML-Formularen. Sommersemester Dr. Henry Herper

ShopBot, ein Software-Agent für das Internet

Algorithmische Methoden für schwere Optimierungsprobleme

semantische Informationssysteme

PHP & HTML. Kurzeinstieg HTML. Zellescher Weg 12 Willers-Bau A109 Tel Michael Kluge

Web Data Management Systeme

Aufbau einer Web 2.0 Community mit Grails. DOAG Konferenz + Ausstellung 2010 Nicole Hoock, esentri consulting GmbH

Erkennung von bösartigen Netzwerkverbindungen mittels Verhaltensgraphenanalyse

Linked Data Grundlagen Einführung ins Data Web

Proseminar Website-Management-Systeme ZOPE/CMF. Andreas M. Weiner

Leitfaden für Redakteure Abo Administration

Inhalt HTML 2. Applets Frames Formulare CSS cascading style sheets. Lehrveranstaltung Internet in AT Dr.-Ing. A. Braune TECHNISCHE UNIVERSITÄT DRESDEN

Unterstützt HL7 die interdisziplinäre Zusammenarbeit?

1. Im Hauptmenü wechseln Sie in den Punkt Liste. 2. Im Seitenbaum klicken Sie in den Menüpunkt, wo das Formular eingefügt werden soll.

Messung von Datenqualität mit Kennzahlen in Open.SC

Studieren in Frankreich mit einem Doppelabschluss

Algorithmische Methoden zur Netzwerkanalyse Vorlesung 12, Henning Meyerhenke

Caliph & Emir. Retrieval und Annotation von digitalen Photos mit MPEG-7. Mathias Lux

LAREX - Ein Werkzeug zur Layout-Analyse und Segmentierung von frühen Buchdrucken

Grundbegriffe der Informatik Tutorium 8

Text Mining for Second Screen

Informatik 2017 Keys4All-Workshop , Chemnitz

Methoden zur Beschreibung der räumlichen Farbhomogenität von LED-Systemen

Ablauf Unit2. Walkthrough

PSE: Analysesoftware für soziale Netzwerke

Programmieren I. Dokumentation mit javadoc Heusch 10.4 Ratz Institut für Angewandte Informatik

Lehrveranstaltungen im Wintersemester 2012/2013

SIZ Modul 221: Outlook und Internetdienste

Implizite Modellierung zur Objekterkennung in der Fernerkundung

Synergien aus Graph-Theorie und Data-Mining für die Analyse von Netzwerkdaten

Grundlagen Internet-Technologien INF3171

Das Semantic Technology Institute (STI)

Theoretische Grundlagen der Informatik

Eine Schnittstelle für Arztpraxisdaten mittels einer Ontologie auf Basis von HL7 Version 3

Der Formulareditor KAPITEL 20. Formular anlegen

Grid-Produkte Marktüberblick, Anspruch Wirklichkeit

Agenda. IT-Symposium Secure Enterprise Search. Suchen und finden mit Suchmaschinen. Oracle SES Überblick

Office 365 Dynamics 365 Azure Cortana Intelligence. Enterprise Mobility + Security Operations Mgmt. + Security

Klausur Informatik Programmierung, Seite 1 von 8 HS OWL, FB 7, Malte Wattenberg

Grundbegriffe der Informatik Tutorium 11

Seminar Semantic Grid. Seminar WS 2004/05 Forschungsgruppe Informationssysteme und Semantic Web Prof. Dr. S. Staab, B. Tausch

Algorithmische Methoden zur Netzwerkanalyse Vorlesung 8, Henning Meyerhenke

Grundbegriffe der Informatik Tutorium 11

Algorithmische Methoden zur Netzwerkanalyse

Neue Erkenntnisse aus unstrukturierten Daten gewinnen

Master-Arbeit. Titel der Arbeit. Betreuer: Matthias Splieth, M.Sc. Themensteller: Prof. Dr. Klaus Turowski

Typo3 Benutzerhandbuch

Muster für eine Masterarbeit

Web Engineering Prof. Dr. Martin Gaedke, Dipl.-Inf. Olexiy Chudnovskyy

Detecting Near Duplicates for Web Crawling

Steinbuch Centre for Computing. Suche/Aufgaben direkt. zur Seite im SmartEdit. Wie komm ich aus. erledige ich sie? Aufgaben? Wie.

YAGO YAGO. A semantic knowledge base. Paul Boeck. Humboldt Universität zu Berlin Institut für Informatik. Dezember /19

Anleitung zur Integration der /data.mill API in SAP Java Applikationen

Portal-Entwicklung mit der Enterprise Portal und der Enterprise Application Platform von JBoss

openk platform Dokumentation Setup Liferay Version 0.9.1

Automatisches Event Tracking mit Google Analytics und Google Tag Manager

Internetkompetenzzentrum Mobile Business & Social Media

Mathematische Verfahren zur Unterstützung der Rettungsdienstplanung

Modul Softwareentwicklung

Big Data bei unstrukturierten Daten. AW1 Vortrag Sebastian Krome

12. Jgst. 3. Kursarbeit Datum: Fach: Informationsverarbeitung (Leistungskurs) & )!!*+,!- -.!-

Hidden Champions: Angebot Wintersemester 2014/15

Nutzung von Ontologien zur Informationsstrukturierung im Themenpark Umwelt

SOA: Service Komposition

Anlagenbau 2.0. Informationslogistik auf semantischer Basis , Bad Homburg, KnowTech 2010

Spickzettel. Dokumentation zum Wordpress-Workshop.

Das Senozon Mobilitätsmodell für Deutschland

Grundbegriffe der Informatik Tutorium 33

IT-Sicherheitslabor Ein praxisorientierter Ansatz zur Zusammenarbeit von Hochschule und Industrie in der Lehre

Semantische Suche auf einem Web-Korpus

Flugreisen: Die Abzocke mit dem Gepäck

Joomla Schulung. Open Source CM-System. Projekt-Nr Thomas Haussener, MA. 20. Juni 2007

Eclipse Equinox als Basis für Smart Client Anwendungen. Christian Campo, compeople AG, Java Forum Stuttgart 2007

Thunderbird-Plugin zur Erkennung anhangverdächtiger s

Grundbegriffe der Informatik Tutorium 14

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten

Prüfbericht zum abschließenden BITV-Test

Intelligente Klassifizierung von technischen Inhalten. Automatisierung und Anwendungspotenziale

Ablauf. Wichtige Termine. Vertiefendes Übungsprojekt - SQL II

Automatisches Layout von Graphen

Internet-Technologien

ICShell. ICShell 22. DFN-Konferenz Sicherheit in vernetzten Systemen

ISO 9001: Mit einem semantischen Wiki Chancen nutzen & Herausforderungen begegnen

Reasoner for the Semantic Web

Modellbasiertes Suchen von Objekten

Szenarien für das Erkennen von energetischen Sanierungspotenzialen im Wohnungsbestand

Suchmaschinen-Optimierung

Berufsorientierung mit dem Spiel My Way! Finde deinen Weg das Brettspiel

Web Crawling Die Erschließung des Webs

Security Patterns. Benny Clauss. Sicherheit in der Softwareentwicklung WS 07/08

Der neue Webauftritt. Schulung für Redakteure

Kennenlernen. Tutorium 7 iloveswt.de Fabian I. Miltenberger INSTITUT FÜR PROGRAMMSTRUKTUREN UND DATENORGANISATION (IPD)

Inhalt. Vorwort...5 Hinweise zum Buch... 7 Abbildungsverzeichnis...15 T abellenverzeichnis... 19

Transkript:

Clustering von Internetdiensten für aktive Ontologien Masterarbeit Philipp Lingel Betreut von Martin Blersch und Mathias Landhäußer IPD Tichy, Fakultät für Informatik KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu

Motivation Aktive Ontologie Trage den Termin Präsentation am 25.09 ein 2 25.09.2015

Motivation Aktive Ontologie Berlin Hamburg Zeig mir alle Flüge von Berlin nach Hamburg Flugauskunft 3 25.09.2015

Ansatz Internetdienst Internetdienst Internetdienst Internetdienst Internetdienst Kategorie A Kategorie B Kategorie C 4 25.09.2015

Grundlagen Klassifikation per Clustering Trainingsmenge Testmenge M2 M2 M1 M1 5 25.09.2015

Grundlagen Aktive Ontologie Zeig mir für heute alle Business Class Flüge von Berlin nach Hamburg Start Präfix:von Flugauskunft optional Uhrzeit Postfix:Uhr Ziel Präfix:nach select Klasse Datum Spezieller K. Business Vokabelliste Economy Vokabelliste 6 25.09.2015

Verwandte Arbeiten Clustering Web services discovery based on semantic similarity clustering [RD12] Web service community discovery based on spectral clusteing [Zha09] Aktive Ontologien OntoBuilder: Fully automatic extraction and consulidation of ontologies from web sources [GMJ04] Automatic ontologie matching using application semantics [Gal05] 7 25.09.2015

Ansatz Internetdienst Internetdienst Internetdienst Internetdienst Internetdienst Kategorie A Kategorie B Kategorie C 8 25.09.2015

Internetdienste sammeln Webcrawler HTML-Formulare Trainingsmenge Trainingsmenge Internetdienste Merkmale Clustering Klassifikation 9 25.09.2015

Merkmale erzeugen Webseitenbeschreibung Formularelemente Anzahl an Elementen Passworteingabe Einfache Auswahl Mehrfache Auswahl Einzeiliges Texteingabefeld Mehrzeiliges Texteingabefeld Spezielle Eingabefelder Link M2 Internetdienste Merkmale Clustering Klassifikation M1 10 25.09.2015

Merkmalsmuster - Formularelemente Webseite = Merkmalsmuster Typ des Elements Semantik Merkmal Texteingabefeld Von Merkmal Texteingabefeld Nach Merkmal Texteingabefeld Ort Merkmal Texteingabefeld PLZ Internetdienste Merkmale Clustering Klassifikation 11 25.09.2015

Semantik erkennen Nach: Zielort Karlsruhe <label>nach: <input value= Karlsruhe, placeholder= Zielort, title= Reiseziel name= Endpunkt > </label> Weitere Attribute: content text option Internetdienste Merkmale Clustering Klassifikation 12 25.09.2015

Merkmale vereinigen Nach: Zielort Zielort: Merkmal Texteingabefeld Nach, Zielort = Merkmal Texteingabefeld Zielort Uhrzeit: Uhrzeit: Uhrzeit: -- : -- Uhr Merkmal Texteingabefeld Uhrzeit Merkmal Einfach Auswahl Uhrzeit Merkmal Spezielles Eingabefeld Uhrzeit Internetdienste Merkmale Clustering Klassifikation 13 25.09.2015

Passworteingabe Einfache Auswahl Mehrfache Auswahl Einzeiliges Texteingabefeld Mehrzeiliges Texteingabefeld Spezieller Eingabefelder Link Merkmalen vereinigen Elementtyp Passworteingabe x Einfache Auswahl x x Mehrfache Auswahl x Einzeiliges Texteingabefeld x Mehrzeiliges Texteingabefeld x Spezielle Eingabefelder x x x Link x Internetdienste Merkmale Clustering Klassifikation 14 25.09.2015

Clustering Spectral Clustering Dichtebasierter Spatial Clustering (DBScan) Internetdienste Merkmale Clustering Klassifikation 15 25.09.2015

Clustering - Spectral Clustering Ähnlichkeitsfunktion Parameter k Voll verbundener Graph Kanten entfernen (k = 0,55) Clustering Internetdienste Merkmale Clustering Klassifikation 16 25.09.2015

Clusterzuordnung Clusterzuordnung Häufigkeit: Internetdienstkategorie M2 Kategorie2 Kategorie3 Login Registrierung Fahrplanauskunft Flugauskunft Autovermietung Unterkunftssuche Newsletterabonnierung Kategorie1 Wettervorhersage M1 Internetdienste Merkmale Clustering Klassifikation 17 25.09.2015

Ansatz Airberlin Germanwings Bahn Wetteronline Wetter24 Flugauskunft Fahrplanauskunft Wettervorhersage 18 25.09.2015

Konstruktionsplan Formularelement Aktive Ontologie Internetdienst Aktive Ontologie 19 25.09.2015

Konstruktionsplan Kategorie Aktive Ontologie 20 25.09.2015

Travelvision Condor Britishairways Germanwings Airberlin Wow-Air Ryanair Fly Flugauskunft Dienstanbieter: Merkmal: Merkmalsmuster Semantik Einzeiliges Texteingabefeld Reisestart X X X X X X X X Einzeiliges Texteingabefeld Reiseziel X X X X X X X X Spezielles Eingabefeld Abreisedatum X X X X X X X X Spezielles Eingabefeld Rückreisedatum X X X X X X X X Spezielles Eingabefeld Abreisezeit X Spezielles Eingabefeld Rückreisezeit X Einfache Auswahl Nur Hinflug X X X X X X X 21 25.09.2015

Ansatz Airberlin Germanwings Bahn Wetteronline Wetter24 Flugauskunft Fahrplanauskunft Wettervorhersage Flug Fahrplan Wetter Start Ziel R.-Datum A.-Datum Ziel Datum Uhrzeit Adresse Ort PLZ 22 25.09.2015

Evaluierungsaufbau 1. Evaluation der Clusterbildung 2. 10-fache Kreuzvalidierung 23 25.09.2015

Datensatz Internetdienstkategorien Anzahl Login 36 Registrierung 12 Fahrplanauskunft 41 Flugauskunft 23 Autovermietung 19 Unterkunftssuche 41 Kontaktformular 39 Newsletterabonnierung 24 Wettervorhersage 25 Gesamt 260 Internetdienstkategorien Anzahl Sprachauswahl 13 Mehrfache Auswahl 3 Veranstaltungsfilter 1 Parkplatzverfügbarkeit 1 Buchung verwalten 2 Filterung 4 Ticketrechner 3 Feedbackformular 1 Suche 4 Gesamt 32 24 25.09.2015

Evaluation des Clusteringalgorithmus 25 25.09.2015

Evaluation des Klassifikators 80 Gesamtauswertung 70 60 50 40 30 20 10 0 Präzision Spectral Clustering Ausbeute DBScan 26 25.09.2015

Evaluation des Klassifikators Präzision Ausbeute 100 100 90 90 80 80 70 70 60 60 50 50 40 40 30 30 20 20 10 10 0 0 Spectral Clustering DBScan Spectral Clustering DBScan 27 25.09.2015

Fazit Klassifikation DBScan - Spectral Clustering + Konstruktionsplan Vorschrift + Manuell - Ausblick Konstruktionsplan automatisieren Semantik Web 28 25.09.2015

Danke für ihre Aufmerksamkeit 29 25.09.2015 Automatisches Testen von objektorientierten Entwurfsmustern Philipp Lingel

Literatur [Gal05] [GMJ04] [Guz08] [RD12] [Zha09] Avigdor Gal u. a., Automatic ontology matching using application semantics, AI magazine 26.1, 2005. Avigdor Gal, Giovanni Modica und Hasan Jamil, Ontobuilder: Fully automatic extraction and consolidation of ontologies from web sources, Engineering, 2004, Proceedings. 20th International Conference on. IEEE, 2004. Didier Guzzoni. Active: a unified platform for building intelligent applications, Diss. Ecole Polytechnique Federale De Lausanne, 28. Jan. 2008. P Ravinder Reddy und A Damodaram, Web services discovery based on semantic similarity clustering, Engineering (CONSEG), CSI Sixth International Conference on. IEEE, 2012. Xizhe Zhang u. a., Web service community discovery based on spectrum clustering, Computational Intelligence and Security, 2009. CIS'09. International Conference on. Bd. 2. IEEE. 2009. 30 25.09.2015 Titel der Arbeit Dein Name

Evaluation des Klassifikators Spectral Clustering Internetdienstkategorie Anzahl Präzision Ausbeute Login 36 89% 94% Registrierung 12 83% 75% Fahrplanauskunft 41 81% 73% Flugauskunft 23 84% 39% Autovermietung 19 11% 5% Unterkunftssuche 41 42% 66% Kontaktformular 39 73% 87% Newsletterabonnierung 24 68% 54% Wettervorhersage 25 87% 100% Gesamtauswertung 260 69,38% 69,86% 31 25.09.2015

Evaluation des Klassifikators Spectral Clustering Internetdienstkategorie Anzahl Präzision Ausbeute Sprachauswahl 13 58% 62% Mehrfache Auswahl 3 0% 0% Buchung verwalten 2 0% 0% Filterung 4 25% 25% Ticketrechner 3 0% 0% Suche 4 0% 0% Unbekannt 3 0% 0% Gesamtauswertung 32 26,69% 28,31% 32 25.09.2015

Internetdienste sammeln - Webcrawler Programmiersprache: Python HTTP- & HTTPS Protokolle Internet Internetdienste Datensatz 33 25.09.2015

Internetdienste sammeln Webcrawler Problem: zyklische Verlinkung Lösung: Host- und URL-gesehen-Test Internet Host- und URL-gesehen-Test: Problem: Speicherkapazität Annahme: Ein Internetdienst ist von der Startseite aus, nach höchstens einer Verlinkung erreichbar. Internetdienste Datensatz 34 25.09.2015