Datenanalyse mit R für Administratoren

Ähnliche Dokumente
AS/point, Ihr Partner die nächsten 10 und mehr Jahre -

Datenbanken. Produkte Dienstleistungen Referenzen

Tuning des Weblogic /Oracle Fusion Middleware 11g. Jan-Peter Timmermann Principal Consultant PITSS

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Softwareentwicklung in der industriellen Praxis

OpenStack und Heat Standardisierte Test- und Entwicklungsumgebungen

ObjectBridge Java Edition

Preis nach den ersten 30 Tagen Kostenlos Kostenpflichtig. Modellierungsnutzer 3 Concurrent Ihre Wahl

Formale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung

Hybride Cloud-Infrastrukturen Bereitstellung & Verwaltung mit System Center 2012

Check_MK. 11. Juni 2013

GanttProject ein open source Projektmanagementtool

E-Business Architekturen

OSRM - weltweites Routing mit OpenStreetMap-Daten OSRM - weltweites Routing mit OpenStreetMap-Daten

Security. Stefan Dahler. 6. Zone Defense. 6.1 Einleitung

Update / Inbetriebnahme domovea Server. Update/Inbetriebnahme domovea Server Technische Änderungen vorbehalten

Apollo Überblick. Klaus Kurz. Manager Business Development Adobe Systems Incorporated. All Rights Reserved.

Systemvoraussetzungen Sitzungsmanager

Programmierung für Mathematik (HS13)

THEMA: " SCHICKE BERICHTE SCHNELL ERSTELLT MIT DEM SAS ENTERPRISE GUIDE" HELENE SCHMITZ

KASPERSKY SECURITY FOR VIRTUALIZATION 2015

Nagios-Monitoring mit check_mk. D. Bucher - WWU Münster

Systemvoraussetzungen für ConSol*CM Version Architektur Überblick

Das Beste aus zwei Welten

TimeMachine. Time CGI. Version 1.5. Stand Dokument: time.odt. Berger EDV Service Tulbeckstr München

Geocodierung mit RStudio am Beispiel Google Maps API

Multimediatechnik / Video

Visualisierung statistischer Daten

22. Fachtagung zum kommunalen Informationsmanagement. Daten präsentieren mit dem DUVA-Webkatalog

TELEMETRIE EINER ANWENDUNG

Herzlich Willkommen bei der nfon GmbH

Wolfgang Trutschnig. Salzburg, FB Mathematik Universität Salzburg

Markus Feichtinger. Power Systems. Der Weg zu POWER! 2009 IBM Corporation

Release Automation für Siebel

Entwicklungen bei der Linux Clustersoftware

Die Analyse großer Datensätze mittels freier Datenbanksysteme Dr Dirk Meusel

FME Desktop. Data in Motion

Entwurf und Prototypische Implementierung einer Data Mashup Plattform. Abschlussvortrag Projekt-INF

Applications Applets (eingeschränkte Rechte)

Integriertes Configuration Management

HP Asset LiVe. Carsten Bernhardt, HP Software Presales

Windows NT, 2000, XP, Vista, Windows 7, Windows 8/8.1, Windows 10 Windows Server NT, 2000, 2003, 2008, 2012 R2 Suse Linux 9.0, 10; OpenSuse

FileMaker Konferenz 2011 Hamburg Speed. Performance Optimierung für Ihre Lösung / Entwickler

OpenVMS und OpenSource Ein Widerspruch? peter ranisch

WebReplicator WebReplicator Features. Net Server

collectd the statistics collection & monitoring daemon

OSS & Cloud Computing: der Motor für das Geoportal Bund

SolarWinds Engineer s Toolset

Herzlich Willkommen! eine praxisnahe Übersicht. Mit Java ins Web - mb@bebox.franken.de (c) Michael Behrendt -

Systemvoraussetzungen

Dipl. Ing. Bernd Miller Lechfeldstr Kissing Tel.: 0172/ Fax: 0721/ miller@miller-system.de

BI Publisher Beleggestaltung ganz einfach. Matthias Bergmann Senior Development Berater

Software und Visualisierungen. Erich Schubert, Dr. Arthur Zimek X-XX KDD Übung

Internet-basierendes Autorensystem zur Erschließung historischen Kulturguts. Thorsten Ludewig. Juni 2004

Systemvoraussetzungen

Konfiguration und Deployment einer hochverfügbaren ADF Anwendung

Langzeitarchivierung von Prozessdaten und Auswertung mithilfe des Informationsservers und Processhistorian von PCS7/WinCC

Hardware- und Softwareanforderungen für die Installation von California.pro

Funktion Jahrgang Wohnort Nationalität Ausbildung Qualifikationen / Zertifikate Sprachen IT Erfahrung seit Schwerpunkte Branchen Verfügbarkeit

Prozessunterstützung durch BPR-, BPM- und Workflow-Systeme

C O C O O N. Wo ist Cocoon in die Apache Projekte einzureihen?

Open Source GIS - das alternative geogovernment

Microsoft Office SharePoint Server 2007 Überblick. Gernot Kühn Partner Technical Specialist Microsoft Deutschland Gmbh

Was ist Data Mining... in der Fundraising Praxis?

ENTERPRISE MODERNIZATION

Lizenzierung von Windows Server 2012

Lizenzierung von Windows Server 2012 R2. Lizenzierung von Windows Server 2012 R2

OTX ODX. MVCI-Server. Hauptkomponenten - Grundlagen. Diagnoseabläufe. Diagnosedatenbank. Diagnoselaufzeitsystem. für Diagnoseabläufe

Solaris Cluster. Dipl. Inform. Torsten Kasch Bielefeld.DE> 8. Januar 2008

Multimedia im Netz Wintersemester 2011/12

Linux-HA-Cluster Heartbeat mit DRBD

Performance Tuning

Archive / Backup System für OpenVMS

Multimediatechnik / Video

Geodatenmanagement und -harmonisierung mit GeoKettle

Datenaufbereitung, Grafische Datenanalyse

Jürgen Keiper Deutsche Kinemathek. Offene Quellen, offene Netze Perspektiven von Open Source-Software im Archiv- und Museumsbereich

aviita reporting portal

SolarWinds Engineer s Toolset

Wonderware InTouch 11.0 Wonderware InTouch 2014

2008 Jiri Spale, Programmierung in eingebetteten Systemen 1

Wie können Sie eine Client Lizenz wieder freigeben?

Datenbanküberwachung mit Open Source-Mitteln. Markus Schmidt

Echtzeitanomalieerkennung für Internetdienste (Abschlussvortrag)

Übung: Verwendung von Java-Threads

Tomcat Konfiguration und Administration

Last- und Performancetest mit freien Werkzeugen. Stefan Siegl,

Erstellung der Berichte für den ifo Geschäftsklimaindex mit Jaspersoft

Microsoft Anwendersoftware

ICINGA Open Source Monitoring in Web 2.0 Style

Datenbank-Service. RZ-Angebot zur Sicherstellung von Datenpersistenz. Thomas Eifert. Rechen- und Kommunikationszentrum (RZ)

Design Studio & Analysis Agenda

ecaros-update 8.2 Update 8.2 procar informatik AG 1 Stand: DP 02/2014 Eschenweg Weiterstadt

DW2004. XML-Datenimport in das SAP Business Information Warehouse bei Bayer Material Science. 3. November Dr. Michael Hahne, cundus AG

Netzwerk Monitoring in der Landesvermessung und Geobasisinformation Brandenburg (LGB) Der Klügste ist der, der weiß was er nicht weiß.

Last- und Stresstest. Überblick. Einleitung / Motivation Stresstest Lasttest Tools The Grinder Zusammenfassung

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE

OSL Simple RSIO. I/O Aufgabenstellungen einfach lösen

ESET Preisliste gültig ab: 01. Mai 2009

Transkript:

Datenanalyse mit R für Administratoren Beispiele aus der Praxis Stefan Möding 23. August 2014

Inhalt R in aller Kürze Beispiel 1: Antwortzeiten eines Tomcat Beispiel 2: Prognosen mit RRD Beispiel 3: Universal Scalability Law

R in aller Kürze R und RStudio R Programmiersprache & -umgebung für statistisches Rechnen und Grafik GNU General Public License UNIX/Linux, MacOS, Windows http://www.r-project.org RStudio Integrated Development Environment GNU Affero General Public License Linux, MacOS, Windows http://www.rstudio.com

R in aller Kürze Stärken Stärken von R Code statt Click nachvollziehbar reproduzierbar versionierbar Schnittstellen Import: CSV, XML, Excel, Access, Oracle, PostgreSQL, MySQL Export: PNG, JPG, SVG, PDF, HTML, Markdown, L A T E X CRAN Comprehensive R Archive Network 5800 Pakete (August 2014)

Beispiel 1: Antwortzeiten eines Tomcat Aufgabenstellung Antwortzeiten eines Apache Tomcat Typische Werte Verteilung Ausreißer

Beispiel 1: Antwortzeiten eines Tomcat Logfile als Datenquelle <Valve classname="org.apache.catalina.valves.accesslogvalve" resolvehosts="false" directory="logs" prefix="tomcat_access_log." suffix=".txt" pattern="%h %l %u %t "%r" %s %b %D" /> Verarbeitungsdauer des Requests (msec)

Beispiel 1: Antwortzeiten eines Tomcat Datenimport # Load data from file tomcat <- read.table(file = "data/tomcat-01.log.gz") Data Frame: Zeilen & Spalten Spaltennamen anpassen names(tomcat) <- c("ip", "rusr", "ausr", "time", "tz", "request", "status", "size", "service_time")

Beispiel 1: Antwortzeiten eines Tomcat Einfache Kennzahlen Wertebereich range(tomcat$service_time) [1] 38 78 Mittelwert mean(tomcat$service_time) [1] 43.96

Beispiel 1: Antwortzeiten eines Tomcat Einfache Kennzahlen Median median(tomcat$service_time) [1] 43 Streuung IQR(tomcat$service_time) [1] 4 Quantile (... in 99% der Fälle liegt die Antwortzeit unter... ) quantile(tomcat$service_time, probs = 0.99) 99% 73.84

Beispiel 1: Antwortzeiten eines Tomcat Häufigkeitsverteilung: Stamm-Blatt-Diagramm stem(tomcat$service_time, scale = 0.5, width = 70) The decimal point is 1 digit(s) to the right of the 3 89999 4 0000000000000001111111111111111112222222222222222222223333+13 4 555555555555556666666677899 5 001124 5 5 6 6 7 7 7 68

Beispiel 1: Antwortzeiten eines Tomcat Häufigkeitsverteilung: Stripchart stripchart(tomcat$service_time, method = "stack", ylim = c(0, 30), xlab = "Service Time [ms]", ylab = "Anzahl", pch = 16) Anzahl 40 50 60 70 Service Time [ms]

Beispiel 1: Antwortzeiten eines Tomcat Häufigkeitsverteilung: Histogramm hist(tomcat$service_time, xlab = "Service Time [ms]", col = "cyan3") Histogram of tomcat$service_time Frequency 0 20 40 60 80 40 50 60 70 80 Service Time [ms]

Beispiel 2: Prognosen mit RRD Aufgabenstellung RRD Round-Robin-Database Aggregation & Visualisierung von Zeitreihen Cacti, Ganglia, Icinga, Munin, Nagios,... Prognosen mit RRD Möglichkeit zur Erkennung unüblicher Auslastung Holt-Winters-Algorithmus Parameter α (Niveau), β (Trend), γ (Saison)

Beispiel 2: Prognosen mit RRD Aufgabenstellung Parameter α, β und γ raten?

Beispiel 2: Prognosen mit RRD Import der Daten web <- read.csv(file = "data/apache_requests.csv.gz", header = TRUE) head(web) time requests_p_sec 1 2014-01-13 00:00:00 5.38 2 2014-01-13 00:00:10 8.30 3 2014-01-13 00:00:20 0.52 4 2014-01-13 00:00:30 5.90 5 2014-01-13 00:00:40 9.00 6 2014-01-13 00:00:50 0.44

Beispiel 2: Prognosen mit RRD Bestimmung der Parameter Periodische Zeitreihe mit 8640 Werten pro Periode web.ts <- ts(web$requests_p_sec, frequency = 86400 / 10) Parameter ermitteln hw <- HoltWinters(web.ts) c(hw$alpha, hw$beta, hw$gamma) alpha beta gamma 0.7291 0.0000 0.8835

Beispiel 2: Prognosen mit RRD Anwendung der ermittelten Parameter Bessere Prognose α = 0.729 β = 0 γ = 0.884

Beispiel 3: Universal Scalability Law Aufgabenstellung Skalierbarkeit eines Tomcat Servers Maximaler Durchsatz Limitierung der Skalierbarkeit Prognose einer Optimierung

Beispiel 3: Universal Scalability Law Einordnung USL Universal Scalability Law Modell zur Quantifizierung der Skalierbarkeit Hardware: Anzahl Hosts, CPUs, Cores,... Software: Anzahl Clients, Threads,... Entwickelt von Dr. Neil J. Gunther Guerrilla Capacity Planning, Springer, 2007 http://www.perfdynamics.com

Beispiel 3: Universal Scalability Law Messreihe als Ausgangspunkt Messreihe für zunehmende Anzahl Clients print(loadtest) clients request_rate service_time 1 1 12.50 43.96 2 2 22.73 49.69 3 4 45.45 54.06 4 8 76.92 74.49 5 16 100.00 128.51 6 32 114.29 238.73

Beispiel 3: Universal Scalability Law Scatterplot der Messreihe plot(request_rate ~ clients, data = loadtest, pch = 16) request_rate 20 40 60 80 100 0 5 10 15 20 25 30 clients

Beispiel 3: Universal Scalability Law Erstellung des USL Modells USL Modell erstellen library(usl) loadtest.usl <- usl(request_rate ~ clients, data = loadtest)

Beispiel 3: Universal Scalability Law Darstellung des USL Modells plot(request_rate ~ clients, data = loadtest, pch = 16) plot(loadtest.usl, col = "red", add = TRUE) request_rate 20 40 60 80 100 0 5 10 15 20 25 30 clients

Beispiel 3: Universal Scalability Law Interpretation der Parameter coef(loadtest.usl) sigma kappa 0.044202 0.001149 Contention, Serial Fraction: Overhead durch rein serielle Ausführung Coherency Delays: Overhead zur Gewährleistung eines kohärenten und konsistenten Zustandes Queues Locks... Punkt-zu-Punkt Synchronisierung Abgleich von Caches...

Beispiel 3: Universal Scalability Law Interpretation der Parameter Konkrete Zusammensetzung der relativen Laufzeit 1 Clients 4 15 30 nur noch 2.3% Verbesserung 0% 25% 50% 75% 100% relative Laufzeit Zeitlicher Anteil: Anwendung Contention (sigma) Coherency (kappa)

Beispiel 3: Universal Scalability Law Auswertung des USL Modells Prognose für Durchsatz scf <- scalability(loadtest.usl) # Predict throughput for 30, 36 and 40 clients scf(c(30, 36, 40)) [1] 114.3 112.6 110.7 Maximaler Durchsatz peak.scalability(loadtest.usl) [1] 28.84 scf(peak.scalability(loadtest.usl)) [1] 114.3

Beispiel 3: Universal Scalability Law Was-wäre-wenn-Analyse Annahme: Optimierung reduziert Zeit in serieller Verarbeitung auf 2% # Assume a smaller sigma peak.scalability(loadtest.usl, sigma = 0.02) [1] 29.2 scf <- scalability(loadtest.usl, sigma = 0.02) scf(peak.scalability(loadtest.usl, sigma = 0.02)) [1] 145.4

Kontakt Vielen Dank! stm@kill-9.net @UnixMagus http://www.moeding.net https://github.com/smoeding

Referenz Jake D. Brutlag. Aberrant behavior detection in time series for network monitoring. In Proceedings of the 14th USENIX Conference on System Administration, LISA 00, pages 139 146, Berkeley, CA, USA, 2000. USENIX Association. Neil J. Gunther. Guerrilla Capacity Planning: A Tactical Approach to Planning for Highly Scalable Applications and Services. Springer, Heidelberg, Germany, 1st edition, 2007. Neil J. Gunther. A general theory of computational scalability based on rational functions. CoRR, abs/0808.1431, 2008. Neil J. Gunther and Stefan Möding. USL: Analyze system scalability with the Universal Scalability Law, 2013. R package version 1.3.1. Dan Leech. Simple icons. http://simpleicons.org/.

Anhang Universal Scalability Law Kapazität X (z.b. Durchsatz) bei p-facher Parallelisierung X(p) X(1) = p 1 + σ (p 1) + κ p(p 1) Contention, Serial Fraction Coherency Delays Ideale Laufzeit bei p-facher Parallelisierung 1/p Overhead durch Contention (Queues, Locks,... ) Overhead durch Coherency (P2P-Sync, Caches,... ) p 1 p σ p 1 2 κ