Oracle R Enterprise. STCC DB Detlef E. Schröder Oracle DWH Community

Ähnliche Dokumente
Analytik Mittels R als übergreifende Plattform

This document is for informational purposes. It is not a commitment to deliver any material, code, or functionality, and should not be relied upon in

<Insert Picture Here> Oracle Data Mining 11.2

Oracle R zum Anfassen

Copyright 2013, Oracle and/or its affiliates. All rights reserved.

R Statistik im Oracle Produktstack

<Insert Picture Here> Datenschätze heben: Data Mining Carsten Czarski Leitender Systemberater Business Unit Database ORACLE Deutschland GmbH

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

Oracle Analytic Functions

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

Oracle 12c: Neuerungen in PL/SQL. Roman Pyro DOAG 2014 Konferenz

Java Application 1 Java Application 2. JDBC DriverManager. JDBC-ODBC Br idge. ODBC Driver Manager. Dr iver C. Dr iver D.

Oracle OLAP 11g: Performance für das Oracle Data Warehouse

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

NoSQL mit Postgres 15. Juni 2015

Step 0: Bestehende Analyse-Plattform

LOG AND SECURITY INTELLIGENCE PLATFORM

Hadoop. Simon Prewo. Simon Prewo

R im Enterprise-Modus

PostgreSQL in großen Installationen

Softwareschnittstellen

Das Beste aus zwei Welten

Echtzeiterkennung von Cyber-Angriffen auf IT-Infrastrukturen. Frank Irnich SAP Deutschland

SAP Predictive Challenge - Lösung. DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015

Hadoop Eine Erweiterung für die Oracle DB?

Verbinde die Welten. Von Oracle auf MySQL zugreifen

Archive / Backup System für OpenVMS

1 Copyright 2012, Oracle and/or its affiliates. All rights reserved.

Webbasierte Exploration von großen 3D-Stadtmodellen mit dem 3DCityDB Webclient

Big Data Anwendungen Chancen und Risiken

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

<Insert Picture Here> Application Express: Stand der Dinge und Ausblick auf Version 5.0

Methoden & Tools für die Expressionsdatenanalyse. Vorlesung Einführung in die Bioinformatik - Expressionsdatenanalyse U. Scholz & M.

Komponenten des Big Data Lab Konzepte und Technologien zum Bearbeiten von Big Data Use Cases

IDS Lizenzierung für IDS und HDR. Primärserver IDS Lizenz HDR Lizenz

IBM Demokratischere Haushalte, bessere Steuerung, fundierte Entscheidungen? Was leisten das neue kommunale Finanzwesen und Business Intelligence?

JOB SCHEDULER. Managed User Jobs. Dokumentation Juli MySQL-Job-Automation

Cloud und Big Data als Sprungbrett in die vernetzte Zukunft am Beispiel Viessmann

Chancen und Wachstumsfelder für PostgreSQL

Microsoft Azure Fundamentals MOC 10979

Smartphone Entwicklung mit Android und Java

Update für Entwickler

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick.

Partitionieren über Rechnergrenzen hinweg

Zend PHP Cloud Application Platform

DOAG Demo Kino: Advisors, Monitoring Werkzeuge in der Datenbank Ulrike Schwinn Business Unit Database Oracle Deutschland B.V.

Entwicklungswerkzeuge & - methoden

Organisatorisches. Unit1: Intro and Basics. Bewertung. About Me.. Datenorientierte Systemanalyse. Gerhard Wohlgenannt

Next Generation Cloud

MySQL Queries on "Nmap Results"

BEDIFFERENT ACE G E R M A N Y. aras.com. Copyright 2012 Aras. All Rights Reserved.

Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG VISUAL ANALYTICS

Symposium on Scalable Analytics. Skalierbare Analysen mit EXASolution

3.17 Zugriffskontrolle

NEWSLETTER. FileDirector Version 2.5 Novelties. Filing system designer. Filing system in WinClient

SAP Predictive Maintenance and Service. Gero Bieser, IBU Utilities, SAP AG Februar 2015

Medienbruchfrei analysieren und dabei Karten als Visualisierungselement in BI anbieten

Proseminar - Data Mining

Installation MySQL Replikationsserver

MIT HIGH PERFORMANCE IN DIE ANALYTIK VON SAS 9.4 GERHARD SVOLBA

AnyWeb AG

THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

IBM Informix Tuning und Monitoring

DIE DATEN IM ZENTRUM: SAS DATA MANAGEMENT

HP converged Storage für Virtualisierung : 3PAR

Advanced Automated Administration with Windows PowerShell

Risiko Modellierung mit PillarOne PillarOne Risk Management meets Open Source

WS 2010/11 Datenbanksysteme Fr 15:15 16:45 R Vorlesung #6. SQL (Teil 4)

Die perfekte Kombination im Agilen Data Warehouse Oracle Engineered Systems mit Data Vault

Copyright 2014, Oracle and/or its affiliates. All rights reserved.

Business Applika-onen schnell entwickeln JVx Framework - Live!

OWB Referenzarchitektur, Releasemanagement und Deployment. Carsten Herbe metafinanz - Informationssysteme GmbH

Stratosphere. Next-Generation Big Data Analytics Made in Germany

Die nächste Storage Generation Vorteile und Änderungen mit 12Gb/s SAS von Avago Storage Dominik Mutterer, Field Application Engineer

Oracle Data Warehouse

Stresstest für Oracle Einführung und Live Demo Swingbench

Browser- gestützte Visualisierung komplexer Datensätze: Das ROAD System

Copyright 2014 Oracle and/or its affiliates. All rights reserved. Oracle Confidential Internal 2

SQL Server 2014 Roadshow

Automatisierung durch Information Lifecycle Management

Entwicklungsumgebung für die Laborübung

Software EMEA Performance Tour Juni, Berlin

Industrie 4.0 und Smart Data

Tuning des Weblogic /Oracle Fusion Middleware 11g. Jan-Peter Timmermann Principal Consultant PITSS

June Automic Hadoop Agent. Data Automation - Hadoop Integration

p^db=`oj===pìééçêíáåñçêã~íáçå=

The Storage Hypervisor

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Copyright 2014, Oracle and/or its affiliates. All rights reserved.

Virtual Unified Environments Infrastructure Service Installation und Lifecycle im Oracle Produktumfeld

Schwerpunkte von SQL Server 2005

SQL Intensivpraktikum SS 2008

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

O-BIEE Einführung mit Beispielen aus der Praxis

Dokumentation für das Web-basierte Abkürzungsverzeichnis (Oracle mod_plsql / Apache)

Hadoop und SAS Status und Ausblick WIEN, JUNI 2015 GERNOT ENGEL, CLIENT SERVICE MANAGER SAS AUSTRIA

Günter Kraemer. Adobe Acrobat Connect Die Plattform für Kollaboration und Rapid Training. Business Development Manager Adobe Systems

Analyse und praktischer Vergleich von neuen Access- Layer-Technologien in modernen Webanwendungen unter Java. Oliver Kalz

Transkript:

Oracle R Enterprise Detlef E. Schröder Oracle DWH Community STCC DB Mitte @DetEgbSchroeder, http://www.oracledwh.de

Themen Warum R Die R-Entwicklungsumgebung Oracle R- Enterprise Der transparente Tabellen-Zugriff Statistische Analysen mit R in der Datenbank Visualisierung von Ergebnissen (Plotting) Visualisierung von Ergebnissen (OBIEE) Einbinden in umfangreiche Analyse-Szenarien

Warum sollte man sich für R interessieren Gehört zu den neuen aufkommenden Trends Next big thing in Avanced Analytics Moderne statistische Programmiersprache Ausbildungsinstitute und Universitäten nutzen R für die Ausbildung (Sie ersetzen traditionelle Tools) Advanced Analytics ist zunehmend kritisches Unterscheidungsmerkmal im DWH Technologie Stack R wird durch Oracle R Enterprise skalierbar Kostengünstige Alternative zu SAS

Graphische Bediener-Oberflächen Auswahl bei den GUIs Bereiche: R Console Plot-Bereich Ergebnis-Bereich Messages Standard GUI / Rstudio / Rcommander/.../...

Daten-Visualisierung mit R http:// gallery.r-enthusiasts.com/

Oracle R Enterprise Oracle Advanced Analytics - Oracle R Enterprise and Oracle Data Mining R code und/oder SQL Modelle laufen In-Database Große Datenmengen Built-in security

Oracle R-Angebote Oracle R Distribution Free download, pre-installed on Oracle Big Data Appliance, bundled with Oracle Linux Enterprise support for customers of Oracle R Enterprise, Big Data Appliance, and Oracle Linux Contribute bug fixes and enhancements to open source R ROracle Open source Oracle database interface driver for R based on OCI Maintainer is Oracle rebuilt from the ground up Many bug fixes and optimizations Oracle R Enterprise Transparent access to database-resident data from R Embedded R script execution through database managed R engines Statistics engine Oracle R Connector for Hadoop R interface to Oracle Hadoop Cluster on BDA Access and manipulate data in HDFS, database, and file system Write MapReduce functions using R and execute through natural R interface

Mögliche Szenarien mit Oracle R-Enterprise File System R Engine Direkten Zugriff auf alle Tabellen in der Datenbank File System R Engine Auslagern der Analysen in die Datenbank Zurückholen der Ergebnisse Anlegen neuer Objekte in der Datenbank Parallelisierung durch die Datenbank R Engine R R Engine Engine R Engine R Engine R-Analysen über SQL-Funktionen (Batch) File System SQL Parallelisierung durch die Datenbank R Engine R R Engine Engine R Engine

Oracle R Enterprise Data Sources Andere Datenbanken Direkter Zugriff RODBC, DBI, etc Oracle Datenbank R Engine Oracle R Enterprise packages Push Pull Results SQL Transparent Layer Andere R Packages R user on desktop Parallel Aufrufe Select...Fro..Table(...) User tables begin Create Function Database Links end Bulk import External Tables Andere Datenbanken File systems Direkter Zugriff Import / Load Data R R Engine R Engine Engine File systems Oracle R Enterprise Andere R packages Oracle R Enterprise Other R packages Oracle R Enterprise Packages packages Other R packages packages

Transparency Layer Support ORE bietet eine in-database execution Funktionalität als transparente Schicht an What s transparent about it? R Benutzte benötigen nur R Syntax Benutzer sehen Datenbank-Objecke as spezielle R Objekte Unterstützt weden fast alle R-Funktionen des Basis-Pakets Unterstützt R's Statistik und Graphik-Pakete Funktional vergleichbar mit SAS DATA STEP, läuft allerdings in-datenbank!

Statistische & Analytische Fkt. (kostenfrei) Statistics Ranking functions rank, dense_rank, cume_dist, percent_rank, ntile Window Aggregate functions (moving and cumulative) Avg, sum, min, max, count, variance, stddev, first_value, last_value LAG/LEAD functions Direct inter-row reference using offsets Reporting Aggregate functions Sum, avg, min, max, variance, stddev, count, ratio_to_report Statistical Aggregates Correlation, linear regression family, covariance Linear regression Fitting of an ordinary-least-squares regression line to a set of number pairs. Frequently combined with the COVAR_POP, COVAR_SAMP, and CORR functions Pattern Matching Descriptive Statistics DBMS_STAT_FUNCS: summarizes numerical columns of a table and returns count, min, max, range, mean, median, stats_mode, variance, standard deviation, quantile values, +/- n sigma values, top/bottom 5 values Correlations Pearson s correlation coefficients, Spearman's and Kendall's (both nonparametric). Cross Tabs Enhanced with % statistics: chi squared, phi coefficient, Cramer's V, contingency coefficient, Cohen's kappa Hypothesis Testing Student t-test, F-test, Binomial test, Wilcoxon Signed Ranks test, Chi-square, Mann Whitney test, Kolmogorov-Smirnov test, One-way ANOVA Distribution Fitting Kolmogorov-Smirnov Test, Anderson-Darling Test, Chi-Squared Test, Normal, Uniform, Weibull, Exponential

Oracle Data Mining Algorithmen Probleme Algorithmen Anwendung Classification Regression Anomaly Detection Attribute Importance Association Rules Clustering Feature Extraction A1 A2 A3 A4 A5 A6 A7 F1 F2 F3 F4 Logistic Regression (GLM) Decision Trees Naïve Bayes Support Vector Machine Multiple Regression (GLM) Support Vector Machine (SVM) One Class SVM Minimum Description Length (MDL) Principal Components Analysis (PCA) Apriori Hierarchical K-Means Hierarchical O-Cluster Expectation-Maximization Clustering Nonnegative Matrix Factorization Singular Value Decomposition (SVD) Classical statistical technique Popular / Rules / transparency Embedded app Wide / narrow data / text Classical statistical technique Wide / narrow data / text Lack examples of target field Attribute reduction Identify useful data Reduce data noise Market basket analysis Link analysis Product grouping Text mining Gene and protein analysis Text analysis Feature reduction

Arbeiten mit Tabellen in der Datenbank

OREeda Package Functions exploratory data analysis ore.corr ore.crosstab ore.freq ore.lm ore.rank ore.sort ore.summary ore.univariate Lokale R-Engine auf PC Oracle Datenbank DB Memory R Memory auf auf R-Engine auf DB-Server Die Abarbeitung im Memory der Datenbank ist schneller als im Memory der R Engine auf dem Server DB-Server-Maschine

Gezieltes Ansteuern einer Verarbeitungsvariante (Beispiel Regressions Modell) mod <- ore.doeval( function(param) { library(ore) ore.connect(user="rquser", password="rquser, sid="orcl", host="192.168.1.16",port=1521) ore.sync() ore.attach() mod <- lm(arrdelay ~ DISTANCE + DEPDELAY, dat) return (mod) }); mod_local <- ore.pull(mod) class(mod_local) summary(mod_local) Daten bleiben im Memory Der Oracle Datenbank Laufzeit: 3 Sekunden mod <- ore.doeval( function(param) { dat <- ore.pull(ontime_s) mod <- lm(arrdelay ~ DISTANCE + DEPDELAY, dat) return( mod ) }); mod_local <- ore.pull(mod) class(mod_local) summary(mod_local) Daten im Memory der R-Engine auf dem DB-Server Laufzeit: 110 Sekunden

Funktionen und Prozeduren in der Datenbank

Aufrufen von R-Scripten über SQL-Statements komplett in der Datenbank (sys.rqscriptcreate) select * from table(rqeval(null, 'select 1 id, 1 res from dual', 'Example1')); Oracle Datenbank Select * from Table() DB Memory R Memory auf auf R-Engine auf DB-Server DB-Server-Maschine begin sys.rqscriptcreate('example1, 'function() { ID <- 1:10 res <- data.frame(id = ID, RES = ID / 100) end; / res}');

Visualisieren von Ergebnissen (Plotting)

Einbinden von R in umfangreichere Analyse-Szenarien

Integrierte R Umgebung Oracle R Advanced Analytics for Hadoop Native Spark Native R MapReduce Native R HDFS Zugriff Client Host R Engine ORAAH ORE Oracle Big Data Appliance R Engine ORAAH Oracle Exadata Mehr Produktivität Hadoop Cluster Software MapReduce Nodes HDFS R Engine ORE

Geoanalyse in 5 Minuten Teil I Kundenwohnorte visualisieren

library(ore) ore.connect(user = "rquser", password="welcome1",host="localhost", port=1521, service_name="orcl") ore.sync() ore.ls() lore.attach()l ibrary(maps) europa<-map("world",lwd=0.5,mar=c(0.1,0.1,0.1,0.1)) plot (europa, type="l",lwd=3, xlim=c(-5,19),ylim=c(45,61),asp=1) D_KUNDE_2$GEHALTD_KUNDE_2_2 <- D_KUNDE_2[D_KUNDE_2$GEHALT>20000,] D_KUNDE_2_1 <- D_KUNDE_2[D_KUNDE_2$GEHALT<20000,] points(d_kunde_2_2$laenge, D_KUNDE_2_2$BREITE,col="green",lwd=1) points(d_kunde_2_1$laenge,d_kunde_2_1$breite,col="red",lwd=1) points(10,52,col="red",lwd=3) ore.disconnect() 24

Geoanalyse in 5 Minuten Teil II Zensus Auswertung auf Kreisebene

# Download der Pakete und deren Aufruf in R library(maptools) Zusammen=merge(Kreise@data,zensus2, by= "RS",all.x=TRUE) Zusammen=Zusammen[order(Zusammen$OBJECTID), ] library(rgdal) library(maps) library(rcolorbrewer) library(shapefiles) # Auswahl der Kombination Anteil der Erwerbslosen an den Erwerbstätigen plotvar <- (Zusammen$Zensus_M)/(Zusammen$Zensus_EWZ) nclr <- 6 # sechs Kategorien vergeben plotclr <- brewer.pal(nclr,"greens") # Blues, Reds... # Einlesen der Daten: alle Geodaten der.zip Datei müssen im gleichen Ordner vorhanden sein colornum <- cut(plotvar2, nclr, labels=false) Kreise <- readshapespatial("c:/users/deschroe/downloads/vg250_kreise") unique(kreise$ags) # Einlesen der Zensusdaten und filtern auf Kreisebene (Satzart=40, formatieren des AGS) ########### Erstellen der Grafik plot(kreise,axes=false,border="black",col=colorcode) zensus=read.csv2("c:/users/deschroe/downloads/zensus.csv") zensus2=data.frame(zensus[zensus$satzart==40,]) zensus2$ags=formatc(zensus2$ags, width = 5, focrmat = "d", flag = "0") names(zensus2)[2]="rs 26

2011 Oracle All Rights Copyright Reserved 2014 Oracle and/or its affiliates. All rights reserved.