Seminar Datenbanksysteme Recommender System mit Text Analysis für verbesserte Geo Discovery Eine Präsentation von Fabian Senn
Inhaltsverzeichnis Geodaten Geometadaten Geo Discovery Recommendation System Collaborative Filtering Content Based Filtering Umsetzung Systemübersicht Fazit
Geodaten Digitale Informationen mit bestimmter räumlichen Lage Beschreiben reale Objekte Strassen Ortschaften Gewässer Verschiedene geometrische Formen Flächen Punkte 3D Objekte...
Geometadaten Zusätzliche Informationen über Geodaten Datenhalter Beschreibung Titel Urheber Internationaler Standard: ISO 19115 Über 400 unterschiedliche Metadatenelemente Schweizer Profil des ISO19115 Standards: GM03
Geo Discovery Textuelle Suche von Geodaten auf Geoportalen Abfrage auf Metadaten... Titel Beschreibung Keywords Location Based
Recommendation System Treffen Vorhersagen über Interessen eines Nutzers Lernen Vorlieben aufgrund von Nutzer Feeback explizit (Ratings, Likes...) implizit (Einkauf, Suchanfragen...) Zwei Varianten Collaborative Filtering Content Based Filtering
Recommendations Machen Nutzer auf unbekannte Daten aufmerksam Als Marketing Strategie für Cross Selling Arten Ähnliche Produkte Neue Produkte Beliebteste Produkte Produkte, die oft zusammen gekauft werden Was ähnliche Nutzer auch noch angeschaut haben...
Collaborative Filtering Analysieren History von vergangenen Feedbacks, um Objekte und/oder Nutzer Ähnlichkeit zu lernen Beispiele: Amazon, Last.fm Brot Käse Milch Apfel T1 x x T2 x x x T3 x x T4 x T5 x x Alice Boris Carroll Doyle Eric Crank + + Hero + + + LotR + + Matrix + + Fargo + +?
Eigenschaften Collaborative Filtering Vorteil Kein Wissen über Items nötig Generisches Konzept Nachteil Grosser Datensatz nötig Problem des Cold Start Keine sinnvolle Vorschläge, wenn kritische Masse an Daten nicht erreicht
Content based Filtering Vergleich von Objekt Eigenschaften und Vorlieben des Nutzers (Nutzer Profil) Objekt Eigenschaften Objekt Profil (Titel, Jahr, Autor, Beschreibung...) Objekt Inhalt (Text, Audio Stream...) Nutzer Profil Implizites Feedback (Kauf, Print, Download, Bookmark...) Explizites Feedback (Rating, Like, persönliches Profil...) Beispiele: IMDB, Google+, Pandora Radio
Eigenschaften Content based Filtering Vorteil Wissen über Objekte kann eingesetzt werden Wenig Nutzerinteraktion nötig Problem des Cold Start behoben Nachteil Aufwändige Beschreibung der Objekte Sind oftmals nur in einem spezifischen Kontext sinnvoll
Zwei verschiedene Verfahren Last.fm (Collaborative Filtering) Vergleicht History der Nutzer Schlägt Lieder vor, die Nutzer mit ähnlichen History gehört haben Pandora Radio (Content Based Filtering) Lieder haben verschiedene Attribute Explizite Nutzer Feedbacks (Likes, Dislikes) werden verwendet, um Attribute zu verstärken oder abzuschwächen
Umsetzung Nutzer Interaktionen Amazon Geoportal View Buy
Umsetzung easyrec RESTful Web Service Setzt Collaborative Filtering um Analysiert Nutzer Interaktionen während einer Session View, Buy, Rate Generiert Vorschläge für einzelne Objekte auf Basis der verschiedenen Interaktionsmöglichkeiten Nutzer, die dieses Objekt angeschaut haben, haben auch folgende Objekte betrachtet... Unterstützt Import von externen Regeln Ermöglicht so Content Based Filtering
Umsetzung Content Based Filtering 1.Transformation der Dokumente in Latent Semantic Indexing Raum 2. Berechnung der Ähnlichkeit zwischen Objekten mittels Cosine Similarity 3. Import der Ähnlichkeitswerte als externe Regeln in easyrec
Latent Semantic Indexing (LSI) Erweiterte Form des Vektor basierten Information Retrievals Dokumente sind Sammlung von Konzepten Helfen, Synonyme zu erkennen (Football und Soccer) Helfen, Dokumente voneinander zu unterscheiden, welche gleiche Wörter benutzen, aber verschiedene Themen behandeln (z.b American Football und Football) Entstehen als Resultat der Singulärwertzerlegung
Systemübersicht
Fazit Stärken Elegante Kombination von Suchmaschine und Recommender System Überwindung des Cold Start Problems Schwächen Unterstützung von verschiedenen Sprachen ist sehr schwierig Geometadaten sind oftmals sehr generisch oder unvollständig Parser für ISO 19115 Standard ist sehr aufwändig