DOAG BI Data-Mining in sozialen Online-Netzwerken

Ähnliche Dokumente
Data-Mining in sozialen Online-Netzwerken

Praktikum und Masterarbeit bei Robotron

Oracle BI Publisher Webservice API in Action

Data Mining - Wiederholung

Wohnungsmarktbeobachtung Niedersachsen (WOM-DB)

Robotron Datenbank-Software GmbH

Datenbank Services. Thomas Lehmann, Düsseldorf. Die Datenbank-Spezialisten.

Adaptive Features Fluch oder Segen

Robotron Datenbank-Software GmbH

Whisky-Empfehlungen. Whisky-Empfehlungen - Joachim Schole

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion

Jens Schmidt Senior Member Technical Staff

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Data Mining in technischen Daten sinnvoll oder nicht? DOAG BI 2014

Kapitel 4: Data Mining

Berechnung von Kennzahlen mit der SQL Model Clause

Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken

Projekt-INF Folie 1

Data Mining Künstliche Neuronale Netze vs. Entscheidungsbäume

H E R Z L I C H W I L L K O M M E N Z U R D O A G K O N F E R E N Z

Personalisierung internetbasierter Handelsszenarien. Matthias Pretzer

Maschinelles Lernen und Data Mining

Automated Feature Generation from Structured Knowledge Seminar aus maschinellem Lernen WS 11/12 Dr. Heiko Paulheim, Frederik Janssen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen

Data Warehousing und Data Mining

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Data Mining im Einzelhandel Methoden und Werkzeuge

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Data Mining auf Datenströmen Andreas M. Weiner

<Insert Picture Here> Datenschätze heben: Data Mining Carsten Czarski Leitender Systemberater Business Unit Database ORACLE Deutschland GmbH

Datenvorverarbeitung von nominalen Daten für Data Mining

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Knowledge Discovery in Databases Dr. Andreas Hotho FG Wissensverarbeitung FB Mathematik/Informatik

Knowledge Discovery in Databases

Klassifikation und Ähnlichkeitssuche

Künstliche Intelligenz im Maschinen- und Anlagenbau Heilsbringer oder Hypebringer?

Kapitel 1: Einleitung

Data Mining und maschinelles Lernen

Kapitel 1: Einleitung

Oracle Data Mining 10g Rel 2

Data Mining Cup deck using PDA or similar devices. Wissensextraktion Multimedia Engineering

Tipps und Tricks bei der Nutzung von EclipseLink (JPA)

Datenbanken Unit 11: Data Mining

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Wilhelm Nüsser (Hrsg.) Carsten Weigand (Hrsg.) Raphael Fockel (Autor) Methoden des Data Mining im praktischen Einsatz

Frequent Itemset Mining + Association Rule Mining

Zeitaspekte. Fabian Bauschulte

Globale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten

Vorlesung Wissensentdeckung

Data Mining mit RapidMiner. Fakultät Informatik Lehrstuhl für Künstliche Intelligenz

Data Mining - Wiederholung

Copyright 2009 Oracle Corporation

MS SQL Server 2012 (4)

Promotoren des Data Mining im betrieblichen Umfeld

INTELLIGENTE DATENANALYSE IN MATLAB

Data Mining - Oracle vs. Open Source

Mathematische Grundlagen III

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Data Mining Cup Dokumentation

Profiling Linked Open Data with ProLOD. LiDDM: A Data Mining System for Linked Data

Über die Autoren 7 Widmung 8 Danksagung 9. Einführung 21

APEX 5. Mit 6 Klicks kostenfrei zur APEX Webapplikation. Robotron Datenbank-Software GmbH Schulungszentrum Heilbronner Straße Dresden

Geodaten mal ohne Karte

BI Publisher-Praxis: Komplexe Reports und Apex- Dokugenerator

Predictive Analytics Organisationsstrukturen Serdar Süzen areto consulting gmbh Köln

Inhalt. Einleitung... XIII

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Dokument Klassifikation. Thomas Uhrig: Data-Mining SS10

Opinion Mining Herausforderungen und Anwendung in der Politik

Institut für angewandte Datenanalyse GmbH

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

INTELLIGENTE DATENANALYSE IN MATLAB. Einführungsveranstaltung

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19

Schneller als Hadoop?

Data Warehousing und Data Mining

Entscheidungsbäume aus großen Datenbanken: SLIQ

Datenbanken-Themen im OS "Data Mining" SS 2010

ID3 und Apriori im Vergleich

Oracle ACFS / CloudFS zuverlässig nutzbar?

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick

Maschinelles Lernen I Einführung. Uwe Reichel IPS, LMU München 22. April 2008

Hauptseminar Data Mining im Wintersemester 2008 / 2009

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer

Performante Verarbeitung großer Datenbanken am praktischem Beispiel

Deep Learning Prof. Dr. E. Rahm und Mitarbeiter

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Roland Tilgner. Solution Architects & Team Coaching DEVELOPMENT. ORACLE TEXT AUS PL/SQL-SICHT Features und Möglichkeiten

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

Einsatz von Datenbanken im Forschungslabor. Workflow und Data Mining

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Case-Based Reasoning und anderen Inferenzmechanismen

Transkript:

DOAG BI 2013 Data-Mining in sozialen Online-Netzwerken Bianca Vornamen Böckelmann, Name, 17. dd.mm.yyyy April 2013

Agenda Über Robotron Motivation Knowledge Discovery in Databases (KDD)-Prozess Oracle Data Mining (ODM) Indirekte Bestimmung privater Informationen Selektion Vorverarbeitung Transformation Data-Mining Evaluierung Ausblick Praxiserfahrungen 2

Zahlen und Fakten Robotron Datenbank-Software GmbH Gründungsjahr 1990 Mitarbeiterzahl 303 (Stand 02/2013) Stammkapital Umsatz 2012 Geschäftssitz 2,4 Mio. EUR 31,1 Mio. EUR Stuttgarter Str. 29 01189 Dresden Oracle-Partner ISO 9001 zertifiziert 3

Robotron-Firmengruppe Tschechien: Robotron Database Solutions s.r.o. Schweiz: Robotron Schweiz GmbH Österreich: Robotron Austria GmbH Russland: Robotron Rus GmbH Deutschland, mit ECG Erdgas-Consult GmbH: Robotron ECG solutions GmbH 4

Motivation Soziale Online-Netzwerke erfreuen sich großer Beliebtheit Veröffentlichung privater Daten vs. Schutz der Privatsphäre Konsequenzen der Veröffentlichung: personenbezogene Daten können von Fremden missbraucht werden Privatsphäreeinstellungen ausreichender Schutz durch Verbergen der Profilinformationen? Ableiten privater Profilinformationen einer Person nur anhand der öffentlichen Daten seiner Freunde möglich? 5

Motivation Masterarbeit an der Brandenburgischen Technischen Universität Cottbus in Kooperation mit der Robotron Datenbank-Software GmbH und der IHP GmbH im Jahr 2012 Einsatz von Oracle Data Mining 11gR2, speziell Oracle Data Miner (ODMr) Umsetzung am Beispiel des sozialen Graphen von Facebook Können Fremde mittels Data-Mining (DM) die privaten Profilinformationen eines Nutzers nur anhand der öffentlichen Daten seiner Freunde vorhersagen? Ziel: Risiken aufzeigen, um Privatsphäre eines Einzelnen zu schützen Schlussfolgerung: Neben Profilinformationen auch Freundschaftsbeziehungen privat halten, um eigene Privatsphäre zu schützen? 6

KDD-Prozess KDD (semi-)automatischer Prozess zum Finden von Mustern in Daten KDD-Prozessmodell Entnommen aus Fayyad, Usama M.; Piatetsky-Shapiro, Gregory; Smyth, Padhraic: From Data Mining to Knowledge Discovery in Databases. In: AI Magazine 17 (1996), Nr. 3, S. 37 54 7

Oracle Data Mining Teil der Oracle Advanced Analytics Option Data-Mining in der Datenbank Zugriff über PL/SQL, SQL, R Grafische Benutzeroberfläche: Oracle Data Miner Erweiterung des SQL Developers 8

Oracle Data Mining Beispiel-Workflow im Oracle Data Miner 9

Oracle Data Mining Datenüberprüfungsknoten: einfache Statistiken Transformationsknoten: Binning Normalisierung Fehlende Werte Ausreißer 10

Oracle Data Mining Überwachtes Lernen Unüberwachtes Lernen Data-Mining-Verfahren Klassifikation Regression Assoziationsanalyse Clustering Anomalieerkennung Data-Mining-Algorithmen Entscheidungsbaum Naive Bayes Support Vector Machine (SVM) Generalisiertes Lineares Modell (GLM) logistische Regression GLM lineare Regression SVM Apriori k-means O-Cluster One-Class SVM 11

Oracle Data Mining Modellknoten 12

Oracle Data Mining Gelernte Modelle und Testergebnisse 13

privater Informationen Selektion PHP-Anwendung Hidden Profile in Facebook Graph API - Abfrage folgender Informationen Profilinformationen: Geburtstag Geschlecht Wohn- und Heimatort Gefällt mir -Angaben (TV, Film, Musik, Buch, Spiel, Sport) Informationen zur Arbeit und zur Bildung Freundschaftsbeziehungen Weltweit 698 Nutzer 14

privater Informationen Vorverarbeitung Fehlende Werte behandeln Geschlecht anhand öffentlicher Informationen herleiten Ableiten des Wohn- und Heimatorts anhand des Orts der Schule bzw. Hochschule und des Unternehmens Mittelwert, Modus Selten angegebene Attribute von Analyse ausschließen Bereinigung der Daten Vereinheitlichung des Vokabulars Notwendigkeit, da kaum Restriktionen bei Facebook-Eingabe Automatisches Matching anhand Syntax: Jaro-Winkler-Ähnlichkeit zu extrahierten Informationen aus DBpedia, Freebase Manuelle Korrektur aufgrund von Synonymen und Homonymen 15

privater Informationen Transformation Datentypkonvertierung Normalisierung: Automatisches Vorbereiten der Daten (ADP) Kategorisierung: Klassifikationshierarchien (vorwiegend automatisch mittels DBpedia, Freebase, ) Ort Gemeinde Kreis Bundesland Staat Studiengang Studienrichtung TV-Sendung TV-Genres Alter Altersgruppe (Quantil-Binning) Ausreißer Erkennen: One-Class SVM und manuell Behandeln: Glättung Alter; seltene, aber reale Werte nicht filtern Anteil in % 10 8 6 4 2 0 10 20 30 40 50 60 70 80 90 100 Alter in Jahren 16

privater Informationen Transformation Hidden Profile Graph Kante entspricht Facebook-Freundschaft 17

privater Informationen Transformation Auswahl der Freunde Maximale Anzahl an Facebook-Freunden: 700 Zu analysierende Nutzer haben mind. 3 bzw. 5 direkte Freunde (min_friends) Direkte und indirekte Freunde Anzahl erfasster Nutzer 300 241 200 100 186 150 112 85 68 0 3 4 5 6 7 8 min_friends 18

privater Informationen Transformation Attribut für einen Nutzer Atomar: CHAR,VARCHAR2,NUMBER,FLOAT Verschachtelt: DM_NESTED_NUMERICALS,DM_NESTED_CATEGORICALS Attributname VARCHAR2(4000) z.b. Fernsehsendungen DM_NESTED_CATEGORICALS( DM_NESTED_CATEGORICAL('Simpsons', '1'), DM_NESTED_CATEGORICAL ('Grey`s Anatomy', '1')) Wert NUMBER bei DM_NESTED_NUMERICAL VARCHAR2(4000) bei DM_NESTED_CATEGORICAL 19

privater Informationen Transformation Attribut für die Freunde eines Nutzers ODM setzt genau eine Falltabelle voraus mit genau einer Zeile pro Fall unterschiedliche Freundesanzahl unter Nutzern Aggregation der Freundeswerte notwendig Einsatz verschachtelter Datentypen Aggregation: relativer Anteil des Vorkommens unter Freunden Anzahl indirekter Freunde meist viel größer als Anzahl direkter separate Aggregation für direkte und indirekte Freunde, anschließende gewichtete Summierung Gewichtung w d in Abhängigkeit von kürzester Distanz d: w 1 = 1,0 und w 2 = 0,0 bzw. w 1 = 0,6 und w 2 = 0,4 20

privater Informationen Transformation Problemtransformierende Methode: Transformation Multi- in Single-Label-Daten anhand Auswahl eines Werts Auswahl relevanter Attribute Manuell: Granularitätsstufen Unbereinigt Bereinigt Kategorisiert auf verschiedenen Ebenen Automatisch: Minimum Description Length (MDL) Filterung irrelevanter Attribute für Vorhersage von Wohnort, Geschlecht, Alter Alle Single-Label-Attribute der Freunde irrelevant, außer bei Alter ist nur Alter der Freunde relevant Alle Multi-Label-Attribute der Freunde relevant 21

privater Informationen Data-Mining Überwachtes Lernen Verwendung des zuvor modellierten Graphen Nur Angaben der Freunde als Prädiktoren (Geschlecht, Wohn- und Heimatort, Alter, Schule, Unternehmen, TV ) vorherzusagender Nutzer = Blackbox Aufteilung in Trainings- und Testmenge Klassifikation: Geschlecht, aktueller Wohnort SVM Naive Bayes Entscheidungsbaum (ODM: nur Single-Label-Daten) GLM (logistische Regression nur für Geschlecht) Regression: Alter SVM GLM (lineare Regression) 22

privater Informationen Data-Mining Unüberwachtes Lernen Alle Nutzer einbeziehen, nicht nur die Freunde Assoziationsregeln Annahme: Nutzer hat mindestens eine Ausprägung eines Attributs A öffentlich Ziel: für Nutzer restliche private Ausprägungen von A vorhersagen Exemplarisch für TV-Angaben 23

privater Informationen Evaluierung Klassifikation Entscheidungsbaum im Allgemeinen schlechte Ergebnisse Wohnort - beste Prognosen bei Naive Bayes Gesamtklassifikationsgenauigkeit (CA) von 71 % auf bereinigter Ebene CA von 86 % auf Bundeslandebene Geschlecht - 65 % CA bei SVM Regression Alter - mittlerer absoluter Fehler von 2,05 Jahren bei GLM, wenn nur gewichteter Altersdurchschnitt der Freunde verwendet wird 24

privater Informationen Evaluierung Bestes Regressionsmodell für Alter liefert folgende Prognosen vorhergesagtes Alter 35 30 25 20 15 15 20 25 30 35 40 tatsächliches Alter 25

privater Informationen Evaluierung Beim Wohnort Multi-Label-Daten besser als Single-Label-Daten, beim Geschlecht keine Priorisierung Beste Altersvorhersage nur anhand gewichtetem Altersdurchschnitt der Freunde MDL nicht zuverlässig Hoher Zeitaufwand für Bereinigung und Kategorisierung, Einsatz nur beim Wohnort sinnvoll Einbeziehen indirekter Freunde nicht nötig Bessere Ergebnisse bei mind. 5 direkten Freunden als bei 3 26

privater Informationen Evaluierung Assoziationsregeln R = A B auf TV-Sendungen Support(R) 0,1 Allgemeingültigkeit Konfidenz(R) 0,4 Verlässlichkeit Lift(R) > 1 positive Korrelation A und B 27

privater Informationen Evaluierung Keine Regeln mit sehr guten Werten für alle 3 Maße Bereinigung sinnvoll Höherer Support Keine sinnlosen Regeln wie American Dad AND How I Met Your Mother AND South Park South Park 28

privater Informationen Evaluierung Gibt der Nutzer nur wenige TV-Sendungen öffentlich preis, so können weitere anhand der Angaben aller 698 erfassten Nutzer vorhergesagt werden! Anhand ausschließlich öffentlicher Informationen direkter Freunde können private Informationen eines Einzelnen geschlussfolgert werden! (Grundlage:150 Nutzer) Gute Vorhersage des Alters und des Wohnorts Mittelmäßige Ergebnisse für Geschlecht Fazit: Sämtliche Profilinformationen und Freundschaftsbeziehungen privat halten, um seine persönlichen Informationen vor Fremden zu schützen! 29

privater Informationen Ausblick Mögliche Verbesserung der Ergebnisse Anwendung auf größerer Datenmenge Mindestanzahl an direkten Freunden erhöhen Modellierung eines Interaktionsgraphen Anderes Anwendungsgebiet Andere graphenbasierte Strukturen 30

Praxiserfahrungen Vorverarbeitung und Transformation nehmen Großteil am KDD-Prozess ein Oracle Data Miner Einfache Handhabung aufgrund von Workflows, für Vergleich der Ergebnisse bei vielen unterschiedlichen Knoteneinstellungen auf gleichen Daten eher PL/SQL-API geeignet Nicht unterstützte Transformationen mittels SQL, PL/SQL selbst implementieren kein zusätzlicher Datentransport nötig 31

Praxiserfahrungen Oracle Data Mining Implizite Behandlung von fehlenden Werten und implizite Zuweisung des Skalentyps eines Attributs anhand des Datentyps beachten Einschränkungen Keine verschachtelten Prädiktoren beim Entscheidungsbaum Keine Vorhersage von verschachtelten Zielattributen 32

Bianca Böckelmann M.Sc. Systemberaterin BI/DW Vielen Dank für Ihre Aufmerksamkeit! Robotron Datenbank-Software GmbH Stuttgarter Straße 29 01189 Dresden Telefon: +49 351 25859-2463 Telefax: +49 351 25859-3699 bianca.boeckelmann@robotron.de http://www.robotron.de 33