R Statistik im Oracle Produktstack



Ähnliche Dokumente
Die perfekte Kombination im Agilen Data Warehouse Oracle Engineered Systems mit Data Vault

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

<Insert Picture Here> Oracle Spatial Die Plattform für Geo-Business-Intelligence. Carsten Czarski ORACLE Deutschland B.V. & Co KG

1 WEB ANALYTICS: PROFESSIONELLE WEB-ANALYSEN UND REPORTING FÜR IHR ONLINE MARKETING.

Jürgen Rohrmeister bonneacta OSB und SOA - Sanfte Migration einer Applikation Matthias Fuchs capgemini

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

EXASOL Anwendertreffen 2012

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

June Automic Hadoop Agent. Data Automation - Hadoop Integration

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! Sascha Bäcker Dr.

Oracle Business Intelligence (OBIEE) 12c Ein erster Einblick in die neue Reporting-Engine von Oracle

Werkzeuge für Datenbank Handwerker: IBM Data Studio und IBM Optim QWT

Mobile Analytics mit Oracle BI

Big Data Informationen neu gelebt

R im Enterprise-Modus

Predictive Modeling Markup Language. Thomas Morandell

Oracle R zum Anfassen

PRODATIS CONSULTING AG. Folie 1

Big Data Mythen und Fakten

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

Microsoft Azure Deutschland ist jetzt verfügbar -

Lokale Installation von DotNetNuke 4 ohne IIS

Exalytics - Deep dive with OBIEE, Timesten and Essbase

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

Big Data Anwendungen Chancen und Risiken

Trends im Markt für Business Intelligence. Patrick Keller, Senior Analyst & Prokurist CeBIT 2016

Fähigkeiten des BizTalk Servers

Und was wird aus meinem Berichtswesen? <Speaker> Oracle Deutschland B.V. & Co. KG

Zeitlich abhängig von OWB?

Virtual Unified Environments Infrastructure Service Installation und Lifecycle im Oracle Produktumfeld

Datenbank-Service. RZ-Angebot zur Sicherstellung von Datenpersistenz. Thomas Eifert. Rechen- und Kommunikationszentrum (RZ)

Hilfe, ich verstehe meine APEX Seite nicht mehr! DOAG Development Konferenz, Düsseldorf

Tuning des Weblogic /Oracle Fusion Middleware 11g. Jan-Peter Timmermann Principal Consultant PITSS

Advanced Analytics. Michael Ridder. Copyright TIBCO Software Inc.

Matrix42. Use Case - Sicherung und Rücksicherung persönlicher Einstellungen über Personal Backup. Version September

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

1Ralph Schock RM NEO REPORTING

BI Publisher Beleggestaltung ganz einfach. Matthias Bergmann Senior Development Berater

Apache HBase. A BigTable Column Store on top of Hadoop

Dokumentation für das Web-basierte Abkürzungsverzeichnis (Oracle mod_plsql / Apache)

Wiederholung: Beginn

Die Bedeutung der Prozessmodellierung bei der Weiterentwicklung des DWHs der DAK Der Innovator als Missing Link

Das perfekte Rechenzentrum mit PernixData Architect & FVP

Open Source als de-facto Standard bei Swisscom Cloud Services

<Insert Picture Here> Oracle Datenbank Einführung Ulrike Schwinn

BI in der Cloud eine valide Alternative Überblick zum Leistungsspektrum und erste Erfahrungen

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

IT SECURITY MANAGEMENT MIT ARIS CLOUD ENTERPRISE

FIREBIRD BETRIEB DER SAFESCAN TA UND TA+ SOFTWARE AUF MEHR ALS EINEM COMPUTER

Machine Learning in Azure Hätte ich auf der Titanic überlebt? Olivia Klose Technical Evangelist, oliviaklose.

Urs Meier Art der Info Technical Info (Februar 2002) Aus unserer Projekterfahrung und Forschung

Möglichkeiten für bestehende Systeme

Experten für CRM und BI seit über 10 Jahren. Analytische CRM Lösungen im Vergleich

Allgemeine Anforderungen zum Einsatz von (gültig ab Version 45.xx.xx)

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

NoSQL mit Postgres 15. Juni 2015

O-BIEE Einführung mit Beispielen aus der Praxis

Übersicht Oracle Lizenzierung Oracle Lizenz-Shop

Inhalt. Fragestellungen. ...we make the invisible visible... Analysen und deren Anwendung Erfahrungen

Webcontrolling Umsetzung in die Praxis. Toll, und wie ist es wirklich?

Gut zu wissen... Lorenz Keller Server Technologies Competence Center Nord

AS/point, Ihr Partner die nächsten 10 und mehr Jahre -

eco Umfrage IT-Sicherheit 2016

Systemvoraussetzung < zurück weiter >

PL/SQL Web-Services mit Oracle 11g

EINSATZ VON MICROSOFT TERMINAL-SERVICES ODER CITRIX METAFRAME

Lohnjournal (Report RPCLJNx0; HxxCLJN0)

Dynamisches SQL. Folien zum Datenbankpraktikum Wintersemester 2009/10 LMU München

S A P B W O N H A N A P R O O F O F C O N C E P T B E I S. O L I V E R

Options- und Freitext-Modul Update-Anleitung

Self Service BI der Anwender im Fokus

Windows Azure für Java Architekten. Holger Sirtl Microsoft Deutschland GmbH

Fotogalerie mit PWGallery in Joomla (3.4.0) erstellen

Tutorial Einrichtung eines lokalen MySQL-Servers für den Offline-Betrieb unter LiveView

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

Agenda. Ziel Problematik OS-Installation Softwareverteilung Inventarisierung Stufenplan

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Ein reales Testumfeld bereitstellen - basierend auf einer Produktionsdatenbank (ohne eine neue Kopie zu erstellen)

Der SAP BW-BPS Web Interface Builder

Erstellung von Word und Excel Berichten mit Eclipse BIRT

arlanis Software AG SOA Architektonische und technische Grundlagen Andreas Holubek

Abschlussarbeiten für StudentInnen

Big Data Kundendaten im 2015 Michael Gisiger Wortgefecht Training & Beratung

ISE Information Systems Engineering Firmenpräsentation Erwin Roßgoderer, Geschäftsführer Horst Erdmann, Key Account Managem.

IDE Grundlagen Vektoren Matrizen Faktoren Dataframes Visualisierung Tips. Quick & dirty

Microsoft Office SharePoint Server 2007 Überblick. Gernot Kühn Partner Technical Specialist Microsoft Deutschland Gmbh

P CALC Die Präferenzkalkulation

Programmers Manual Geodaten Ver. 2.0

Hands-on für UI5-Anwendung auf HANA

w3lib - einfach Software entwickeln!

Transkript:

R Statistik im Oracle Produktstack Matthias Fuchs DWH Architect ISE Information Systems Engineering GmbH

ISE Information Systems Engineering Gegründet 1991 Mitarbeiteranzahl: 50 Hauptsitz in Gräfenberg, Niederlassungen in München und Nürnberg Schwerpunkte: Oracle Engineered Systems (Exadata / Exalogic / Exalytics) Data Warehousing & Business Intelligence Oracle DB Migrationen, Optimierungen, Hochverfügbarkeit Managed Service für Datenbanken, BI und Middlewareapplikationen Oracle Partner Engineered Systems Award 2013 Copyright (C) ISE GmbH - All Rights Reserved 2

ISE Oracle Technology Center Erstes und einziges Exastack Technology Center in Deutschland in Nürnberg Copyright (C) ISE GmbH - All Rights Reserved 3

Analytik mit R auf Oracle Exadata und OBIEE About R Oracle Technologien mit R Oracle R Distribution Roracle und Oracle R Enterprise Oracle R Advanced Analytics for Hadoop Visualisierung mit R Copyright (C) ISE GmbH - All Rights Reserved 4

R R ist eine Softwareumgebung und eine Programmiersprache. R besteht aus einem schlanken Kernsystem und optionalen Paketen. Die Pakete enthalten Werkzeuge für spezielle Aufgaben im Analyseprozess. Führende Expertenauf dem jeweiligen Gebieten entwickeln die R- Pakete. R kann sehr gut in andere Softwareumgebungen integriert werden. R ist plattformunabhängig Copyright (C) ISE GmbH - All Rights Reserved 5

R ggplot2 Ca. 6.000 weitere googlevis ORAAH R RCurl ORE Record Linkage RODBC Twitter Copyright (C) ISE GmbH - All Rights Reserved 6

R Vergleich mit Standardsoftware aus dem Analytikumfeld: Community R Weltweite Community mit Entwicklern und Experten Kommerzielle Software Begrenzte Anzahl von Entwicklern Flexibilität Aktualität Funktionsumfang Anpassung an viele Datentypen Neue Methoden sind schnell verfügbar R bietet mehr analytische Methoden als andere Softwaretools Meist vorgegebene Datenstrukturen Abhängig vom Hersteller Meist geringerer Funktionsumfang Grafiken Extrem flexible und anpassbar, hohe Qualität, Exportierbar Standard Grafiken Copyright (C) ISE GmbH - All Rights Reserved 7

R - Relevanz Copyright (C) ISE GmbH - All Rights Reserved 8

R Copyright (C) ISE GmbH - All Rights Reserved 9

Oracle Technologien mit R Oracle R Distribution ROracle und Oracle R Enterprise (ORE) Oracle R Advanced Analytics for Hadoop (ORAAH) Copyright (C) ISE GmbH - All Rights Reserved 10

Oracle R Distribution Distribution von RPM Packages Aktuelle Version 3 Yum repository von Oracle Für Exadata verfügbar Copyright (C) ISE GmbH - All Rights Reserved 11

ORE in der Datenbank Traditonal Analytics Data Import Model Scoring Data Preparation Transformation Model Building Data Preparation Transformation Data Extraction Oracle Datamining Savings Model Scoring Embedded Data Preparation Model Building Data Preperation Ergebnisse Schnellere Entwicklungsprozess Kleiner TCO keine doppelte Datenhaltung Keine Datenkopien Enterprise Aware (Security, Maintenance) Copyright (C) ISE GmbH - All Rights Reserved 12

ORE in der Datenbank Using Oracle DB Calculation Local Using Oracle DB Calculation in Oracle DB Using Oracle DB Calculation on DB Server R Engine Oracle R Packages SQL In Database statistical and data mining R emebedded Oracle R Packages R Engine Berechnung am lokalen Client Daten direkt aus der DB Berechnung innerhalb der Datenbank Basierend auf ORE Paketen Engineered System Enhacements (Exadata Cells) Berechnung auf dem Datenbank Server External Procedure Mehrere parallel R Prozesse Copyright (C) ISE GmbH - All Rights Reserved 13

ORE in der Datenbank Inside DB R läuft auf dem Datenbank Rechner Optimiert für Geschwindigkeit High Performance Aus SQL heraus Optimierte Pakete von Oracle In Database statistical and data mining e.g. Exadata Outside DB (ROracle) Berechnungen laufen auf dem Client Daten aus der DB Nicht aus SQL heraus Oracle DB Easy to use Entwicklung von R Code licence free R Engine ROracle Packages Copyright (C) ISE GmbH - All Rights Reserved 14

ORE in der Datenbank Vergleich der Oracle R Methoden R Client ROracle R in Database ORE Cran Packages Ja Basis und Ore Pakete Parallel Grenzen Nein abhängig von Paketen Network, CPU, RAM auf Client Ja, ORE Pakete arbeiten wenn möglich parallel, parallele SQL Prozesse I/O, CPU, RAM auf DB Server R in DB Server ORE+alles in R Ja Mehrere parallel R Prozesse möglcih I/O, CPU, RAM auf DB Server Parallel in R Start R client SQL, R Scripte SQL, R Scripte Copyright (C) ISE GmbH - All Rights Reserved 16

ORE in der Datenbank - Fontends R: RStudio, Daten laden über Roracle RStudio, Daten laden über ORE RStudio Aufrufen und Erstellen von R Scripten SQL: Table function queries select * from table(rqeval(cursor(select 20 "num", 100 "scale", 55 "stop" from dual), 'select 1 id, 1 res from dual', 'SimpleScript1')); SQL Developer, Verwendung von Standard scripts SQL Developer, Aufrufen und Erstellen von R Scripten Copyright (C) ISE GmbH - All Rights Reserved 17

ORE in der Datenbank RStudio Copyright (C) ISE GmbH - All Rights Reserved 18

ORE in der Datenbank SQL Copyright (C) ISE GmbH - All Rights Reserved 19

Optimieren mit ORE - Transparency Layer Funktionen aus ORE: Beispiel: dataset_pointer=ore.get("ore_data") dataset = ore.pull(dataset_pointe [dataset_pointer$primary_bid == primary_bid, ]) dataset = dataset[order(dataset[, "PERIOD_LONG"]), ] dataset_pointer=ore.get("ore_data") dataset=ore.pull(ore.sort(data=dataset_pointer[dataset_pointer$primary_bid == primary_bid, ]), by='period_long ') Copyright (C) ISE GmbH - All Rights Reserved 20

Optimieren mit ORE - Script Embedded Execution 1 ore.doeval(fun.name="myoutlierfunctionndb", ore.connect=true) ore.scriptcreate ( "myoutlierfunctionnewdb", function (dataset_pointer, direction,start,stop,conflevel,threshold, primary_bic){ #... } 2 ore.tableapply(id01270_ore_data, FUN.NAME = "myoutlierfunctionnewdb", direction='s', start="201101", stop="201311", conflevel=0.995, threshold=10, primary_bic = ID01270") 3 res <- ore.groupapply(ore_data, BIC_ORE_DATA$CURRENT_PRIMARY_ID, FUN.NAME = "myoutlierfunctionnewdb", direction='s', start="201101", stop="201311", conflevel=0.995, threshold=10, parallel = TRUE)) Copyright (C) ISE GmbH - All Rights Reserved 21

ORAAH Oracle Advanced Analytics for Hadoop HDFS HDFS connects Mapper und Reducer in R 8 vorbereitete Algorythmen (KMeans clustering, linear regression..) Hive (ORCH) Ähnlich wie ORE Data.frame object auf HiveQLHive 9 Vorbereitete Algorythmen (KMeans clustering, linear regression..) Copyright (C) ISE GmbH - All Rights Reserved 22

ORAAH Oracle Advanced Analytics for Hadoop Big Data Analytics in R the torch has been lit! https://blogs.oracle.com/r/entry/big_data_analytics_in_r Laden eines 10 GBit Files Abgrenzung zu parallel Paket Hive und MapReduce Low-Rank Matrix Factorization in Oracle R Advanced Analytics for Hadoop https://blogs.oracle.com/r/entry/low_rank_matrix_factorization_in Online Shop Anhand von Käufen, Aufrufen und Bewertungen Artikel vorschlagen Copyright (C) ISE GmbH - All Rights Reserved 23

Visualisierung mit R Was will ich? Reporting Printing Interaktiv R im web Enterprise Aware Installierbar Supportbar Sicherheit Copyright (C) ISE GmbH - All Rights Reserved 24

Visualisierung mit R Open Source Examples Rstudio Web R Shiny Web framework Many Software Parts Kommerzielle Pakete für Sicherheit rapache Only R and Apache Easy to use http code OpenCPU Embedded Scientific Computing Ubuntu Cloud Server Copyright (C) ISE GmbH - All Rights Reserved 25

Visualisierung mit R - OBIEE R Scripte werden über SQL aufgrufen Table functions Security/Audit über Dashboards/Reports und Datenbank XML und binary output (z.b. PNG) SQL Query table function Liste mit PNG oder XML DB mit ORE 11g/12c OBIEE oder BIPublisher Copyright (C) ISE GmbH - All Rights Reserved 26

Beispiel mit OBIEE Beispiel Code für Dahboards: R Code sys.rqscriptcreate('busiestairportspar', 'function(dat){. ## select values minx <- min(head(sort(aggdata$x, decreasing = TRUE), n)) busiest_airports <- aggdata$group.1[aggdata$x >= minx, drop = TRUE] ## Graphical Output res <- boxplot(bd, notch = TRUE, col = "gold", cex = 0.5, outline = FALSE, horizontal = TRUE, yaxt = "n", main = paste("2007 Flight Delays by Airport, top ",n, " busiest",sep=""), xlab = "Delay (minutes)", ylab = "Airport") SQL Aufruf für OBIEE --Calling PNG select ID,IMAGE from table(rqtableeval( cursor(select DEST, ARRDELAY, valueof(nq_session.numrows) NUM, valueof(nq_session.fyear), cursor(select 1 "ore.connect" from dual), 'PNG','BusiestAirportsPar')) Copyright (C) ISE GmbH - All Rights Reserved 27

OBIEE Dashboard Copyright (C) ISE GmbH - All Rights Reserved 28

R Style Xkcd Style seqe <- seq(1,6) test <- dplot test$nr <- seqe dplot2 <- test xmin=dplot2$nr -0.1 xmax=dplot2$nr +0.3 ymin=0 ymax=dplot2$anzahl mapping <- aes(xmin=xmin,ymin=ymin,xmax=xmax,ymax=ymax) xrange <- range(1:7) xrange <- dplot2$dest yrange <- range(min(dplot2$anzahl) + 10, max(dplot2$anzahl) + 200) ggplot() + geom_smooth(mapping=aes(x=dplot2$dest,y=dplot2$anzahl, group=1),data = dplot2, colour="white") + xlab("airport" ) + ylab("flights") + ggplot(dplot2, aes(x=dplot2$dest,y=dplot2$anzahl, group=1)) + geom_line(colour="white") + xkcdaxis(xrange,yrange) + xlab("airport" ) + ylab("flights") + xkcdrect(mapping,dplot2,fill="yellow",colour="red") Copyright (C) ISE GmbH - All Rights Reserved 29

Xkcd Copyright (C) ISE GmbH - All Rights Reserved 30

oder so Aus http://xkcd.r-forge.r-project.org/ Copyright (C) ISE GmbH - All Rights Reserved 31

Questions Copyright (C) ISE GmbH - All Rights Reserved 32