Clustering von Internetdiensten für aktive Ontologien Masterarbeit Philipp Lingel Betreut von Martin Blersch und Mathias Landhäußer IPD Tichy, Fakultät für Informatik KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu
Motivation Aktive Ontologie Trage den Termin Präsentation am 25.09 ein 2 25.09.2015
Motivation Aktive Ontologie Berlin Hamburg Zeig mir alle Flüge von Berlin nach Hamburg Flugauskunft 3 25.09.2015
Ansatz Internetdienst Internetdienst Internetdienst Internetdienst Internetdienst Kategorie A Kategorie B Kategorie C 4 25.09.2015
Grundlagen Klassifikation per Clustering Trainingsmenge Testmenge M2 M2 M1 M1 5 25.09.2015
Grundlagen Aktive Ontologie Zeig mir für heute alle Business Class Flüge von Berlin nach Hamburg Start Präfix:von Flugauskunft optional Uhrzeit Postfix:Uhr Ziel Präfix:nach select Klasse Datum Spezieller K. Business Vokabelliste Economy Vokabelliste 6 25.09.2015
Verwandte Arbeiten Clustering Web services discovery based on semantic similarity clustering [RD12] Web service community discovery based on spectral clusteing [Zha09] Aktive Ontologien OntoBuilder: Fully automatic extraction and consulidation of ontologies from web sources [GMJ04] Automatic ontologie matching using application semantics [Gal05] 7 25.09.2015
Ansatz Internetdienst Internetdienst Internetdienst Internetdienst Internetdienst Kategorie A Kategorie B Kategorie C 8 25.09.2015
Internetdienste sammeln Webcrawler HTML-Formulare Trainingsmenge Trainingsmenge Internetdienste Merkmale Clustering Klassifikation 9 25.09.2015
Merkmale erzeugen Webseitenbeschreibung Formularelemente Anzahl an Elementen Passworteingabe Einfache Auswahl Mehrfache Auswahl Einzeiliges Texteingabefeld Mehrzeiliges Texteingabefeld Spezielle Eingabefelder Link M2 Internetdienste Merkmale Clustering Klassifikation M1 10 25.09.2015
Merkmalsmuster - Formularelemente Webseite = Merkmalsmuster Typ des Elements Semantik Merkmal Texteingabefeld Von Merkmal Texteingabefeld Nach Merkmal Texteingabefeld Ort Merkmal Texteingabefeld PLZ Internetdienste Merkmale Clustering Klassifikation 11 25.09.2015
Semantik erkennen Nach: Zielort Karlsruhe <label>nach: <input value= Karlsruhe, placeholder= Zielort, title= Reiseziel name= Endpunkt > </label> Weitere Attribute: content text option Internetdienste Merkmale Clustering Klassifikation 12 25.09.2015
Merkmale vereinigen Nach: Zielort Zielort: Merkmal Texteingabefeld Nach, Zielort = Merkmal Texteingabefeld Zielort Uhrzeit: Uhrzeit: Uhrzeit: -- : -- Uhr Merkmal Texteingabefeld Uhrzeit Merkmal Einfach Auswahl Uhrzeit Merkmal Spezielles Eingabefeld Uhrzeit Internetdienste Merkmale Clustering Klassifikation 13 25.09.2015
Passworteingabe Einfache Auswahl Mehrfache Auswahl Einzeiliges Texteingabefeld Mehrzeiliges Texteingabefeld Spezieller Eingabefelder Link Merkmalen vereinigen Elementtyp Passworteingabe x Einfache Auswahl x x Mehrfache Auswahl x Einzeiliges Texteingabefeld x Mehrzeiliges Texteingabefeld x Spezielle Eingabefelder x x x Link x Internetdienste Merkmale Clustering Klassifikation 14 25.09.2015
Clustering Spectral Clustering Dichtebasierter Spatial Clustering (DBScan) Internetdienste Merkmale Clustering Klassifikation 15 25.09.2015
Clustering - Spectral Clustering Ähnlichkeitsfunktion Parameter k Voll verbundener Graph Kanten entfernen (k = 0,55) Clustering Internetdienste Merkmale Clustering Klassifikation 16 25.09.2015
Clusterzuordnung Clusterzuordnung Häufigkeit: Internetdienstkategorie M2 Kategorie2 Kategorie3 Login Registrierung Fahrplanauskunft Flugauskunft Autovermietung Unterkunftssuche Newsletterabonnierung Kategorie1 Wettervorhersage M1 Internetdienste Merkmale Clustering Klassifikation 17 25.09.2015
Ansatz Airberlin Germanwings Bahn Wetteronline Wetter24 Flugauskunft Fahrplanauskunft Wettervorhersage 18 25.09.2015
Konstruktionsplan Formularelement Aktive Ontologie Internetdienst Aktive Ontologie 19 25.09.2015
Konstruktionsplan Kategorie Aktive Ontologie 20 25.09.2015
Travelvision Condor Britishairways Germanwings Airberlin Wow-Air Ryanair Fly Flugauskunft Dienstanbieter: Merkmal: Merkmalsmuster Semantik Einzeiliges Texteingabefeld Reisestart X X X X X X X X Einzeiliges Texteingabefeld Reiseziel X X X X X X X X Spezielles Eingabefeld Abreisedatum X X X X X X X X Spezielles Eingabefeld Rückreisedatum X X X X X X X X Spezielles Eingabefeld Abreisezeit X Spezielles Eingabefeld Rückreisezeit X Einfache Auswahl Nur Hinflug X X X X X X X 21 25.09.2015
Ansatz Airberlin Germanwings Bahn Wetteronline Wetter24 Flugauskunft Fahrplanauskunft Wettervorhersage Flug Fahrplan Wetter Start Ziel R.-Datum A.-Datum Ziel Datum Uhrzeit Adresse Ort PLZ 22 25.09.2015
Evaluierungsaufbau 1. Evaluation der Clusterbildung 2. 10-fache Kreuzvalidierung 23 25.09.2015
Datensatz Internetdienstkategorien Anzahl Login 36 Registrierung 12 Fahrplanauskunft 41 Flugauskunft 23 Autovermietung 19 Unterkunftssuche 41 Kontaktformular 39 Newsletterabonnierung 24 Wettervorhersage 25 Gesamt 260 Internetdienstkategorien Anzahl Sprachauswahl 13 Mehrfache Auswahl 3 Veranstaltungsfilter 1 Parkplatzverfügbarkeit 1 Buchung verwalten 2 Filterung 4 Ticketrechner 3 Feedbackformular 1 Suche 4 Gesamt 32 24 25.09.2015
Evaluation des Clusteringalgorithmus 25 25.09.2015
Evaluation des Klassifikators 80 Gesamtauswertung 70 60 50 40 30 20 10 0 Präzision Spectral Clustering Ausbeute DBScan 26 25.09.2015
Evaluation des Klassifikators Präzision Ausbeute 100 100 90 90 80 80 70 70 60 60 50 50 40 40 30 30 20 20 10 10 0 0 Spectral Clustering DBScan Spectral Clustering DBScan 27 25.09.2015
Fazit Klassifikation DBScan - Spectral Clustering + Konstruktionsplan Vorschrift + Manuell - Ausblick Konstruktionsplan automatisieren Semantik Web 28 25.09.2015
Danke für ihre Aufmerksamkeit 29 25.09.2015 Automatisches Testen von objektorientierten Entwurfsmustern Philipp Lingel
Literatur [Gal05] [GMJ04] [Guz08] [RD12] [Zha09] Avigdor Gal u. a., Automatic ontology matching using application semantics, AI magazine 26.1, 2005. Avigdor Gal, Giovanni Modica und Hasan Jamil, Ontobuilder: Fully automatic extraction and consolidation of ontologies from web sources, Engineering, 2004, Proceedings. 20th International Conference on. IEEE, 2004. Didier Guzzoni. Active: a unified platform for building intelligent applications, Diss. Ecole Polytechnique Federale De Lausanne, 28. Jan. 2008. P Ravinder Reddy und A Damodaram, Web services discovery based on semantic similarity clustering, Engineering (CONSEG), CSI Sixth International Conference on. IEEE, 2012. Xizhe Zhang u. a., Web service community discovery based on spectrum clustering, Computational Intelligence and Security, 2009. CIS'09. International Conference on. Bd. 2. IEEE. 2009. 30 25.09.2015 Titel der Arbeit Dein Name
Evaluation des Klassifikators Spectral Clustering Internetdienstkategorie Anzahl Präzision Ausbeute Login 36 89% 94% Registrierung 12 83% 75% Fahrplanauskunft 41 81% 73% Flugauskunft 23 84% 39% Autovermietung 19 11% 5% Unterkunftssuche 41 42% 66% Kontaktformular 39 73% 87% Newsletterabonnierung 24 68% 54% Wettervorhersage 25 87% 100% Gesamtauswertung 260 69,38% 69,86% 31 25.09.2015
Evaluation des Klassifikators Spectral Clustering Internetdienstkategorie Anzahl Präzision Ausbeute Sprachauswahl 13 58% 62% Mehrfache Auswahl 3 0% 0% Buchung verwalten 2 0% 0% Filterung 4 25% 25% Ticketrechner 3 0% 0% Suche 4 0% 0% Unbekannt 3 0% 0% Gesamtauswertung 32 26,69% 28,31% 32 25.09.2015
Internetdienste sammeln - Webcrawler Programmiersprache: Python HTTP- & HTTPS Protokolle Internet Internetdienste Datensatz 33 25.09.2015
Internetdienste sammeln Webcrawler Problem: zyklische Verlinkung Lösung: Host- und URL-gesehen-Test Internet Host- und URL-gesehen-Test: Problem: Speicherkapazität Annahme: Ein Internetdienst ist von der Startseite aus, nach höchstens einer Verlinkung erreichbar. Internetdienste Datensatz 34 25.09.2015