In-Memory Analytics. Marcel Poltermann. Fachhochschule Erfurt. Informationsmanagement



Ähnliche Dokumente
In 15 einfachen Schritten zum mobilen PC mit Paragon Drive Copy 10 und Microsoft Windows Virtual PC

In 12 Schritten zum mobilen PC mit Paragon Drive Copy 11 und Microsoft Windows Virtual PC

Verwaltung der MSATA-SSD bei HP Envy Ultrabook 4 und Ultrabook 6 mit Intel Smart Response Technologie

Eigene Dokumente, Fotos, Bilder etc. sichern

Professionelle Seminare im Bereich MS-Office

Neuerungen PRIMUS 2014

Datensicherung. Beschreibung der Datensicherung

Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me

MAXDATA b.drive. Externe Festplatte mit integrierter Backup Software

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Schritt-Schritt-Anleitung zum mobilen PC mit Paragon Drive Copy 10 und VMware Player

Ihr IT-Administrator oder unser Support wird Ihnen im Zweifelsfall gerne weiterhelfen.

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

In 15 Schritten zum mobilen PC mit Paragon Drive Copy 14 und VMware Player

Lizenzierung von System Center 2012

TrueCrypt Anleitung: Datenschutz durch Festplattenverschlüsselung

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

3 Windows als Storage-Zentrale

SSDs im Einsatz mit MicroStation

Einrichtung des Cisco VPN Clients (IPSEC) in Windows7

Zuschauer beim Berlin-Marathon

Technical Note 0301 ewon

PROLAG WORLD 2.0 PRODUKTBESCHREIBUNG SERVERSYSTEM, CLUSTERSYSTEME FÜR PROLAG WORLD

Installationsvoraussetzungen

Installation OMNIKEY 3121 USB

In 15 Schritten zum mobilen PC mit Paragon Drive Copy 11 und VMware Player

DIE SCHRITTE ZUR KORREKTEN LIZENZIERUNG

Die Lernumgebung des Projekts Informationskompetenz

Microsoft PowerPoint 2013 Folien gemeinsam nutzen

PC-Umzug: So ziehen Sie Ihre Daten von Windows XP nach Windows 8 um

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

Win 7 optimieren. Unser Thema heute: Meine erstellten Daten in eine andere Partition verschieben.

icloud nicht neu, aber doch irgendwie anders

SJ OFFICE - Update 3.0

Anleitung über den Umgang mit Schildern

IntelliRestore Seedload und Notfallwiederherstellung

Einen Wiederherstellungspunktes erstellen & Rechner mit Hilfe eines Wiederherstellungspunktes zu einem früheren Zeitpunkt wieder herstellen

Installationsanleitung für CashPro im Mehrbenutzerzugriff/Netzwerkbetrieb

Leitfaden zur ersten Nutzung der R FOM Portable-Version für Windows (Version 1.0)

ACDSee Pro 2. ACDSee Pro 2 Tutorials: Übertragung von Fotos (+ Datenbank) auf einen anderen Computer. Über Metadaten und die Datenbank

Lizenzierung von SharePoint Server 2013

Folgeanleitung für Klassenlehrer

Updatehinweise für die Version forma 5.5.5

Jeopardy and andere Quizformate im bilingualen Sachfachunterricht Tipps zur Erstellung mit Powerpoint

Die Installation von D-Link WLAN Karten unter Windows Vista

ERPaaS TM. In nur drei Minuten zur individuellen Lösung und maximaler Flexibilität.

Spotlight 5 Gründe für die Sicherung auf NAS-Geräten

Jederzeit Ordnung halten

TeamSpeak3 Einrichten

Materialupload. Verwalten von Unterrichtsmaterialien. über das STiNE-Webportal. Universität Hamburg Tor zur Welt der Wissenschaft

Es gibt einige Kardinalstellen, an denen sich auf der Festplatte Müll ansammelt: Um einen Großteil davon zu bereinigen.

Anleitung zur Einrichtung einer ODBC Verbindung zu den Übungsdatenbanken

DNS 323 Wiederherstellung von gelöschten Dateien (bzw. von als in Windows als gelöscht markierten Dateien ) aus einem ext2 Dateisystem

Agentur für Werbung & Internet. Schritt für Schritt: Newsletter mit WebEdition versenden

Information zur Durchführung von. Software-Updates

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

Daten am USB Stick mit TrueCrypt schützen

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Internet online Update (Internet Explorer)

1 Einleitung. Lernziele. Symbolleiste für den Schnellzugriff anpassen. Notizenseiten drucken. eine Präsentation abwärtskompatibel speichern

Stammdaten Auftragserfassung Produktionsbearbeitung Bestellwesen Cloud Computing

4 Planung von Anwendungsund

Kapitel 1: Betriebssystem IX. W indows Explorer und der Arbeitsplatz Teil 2

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Mein eigener Homeserver mit Ubuntu LTS

2 Die Terminaldienste Prüfungsanforderungen von Microsoft: Lernziele:

Zwischenablage (Bilder, Texte,...)

Staatlich geprüfter EDV-Führerschein

Universal Dashboard auf ewon Alarmübersicht auf ewon eigener HTML Seite.

14.2 Einrichten der Druckserverfunktionen

Anleitung - Archivierung

Berechnungen in Access Teil I

Terminabgleich mit Mobiltelefonen

Teaser-Bilder erstellen mit GIMP. Bildbearbeitung mit GIMP 1

Windows 10. Vortrag am Fleckenherbst Bürgertreff Neuhausen.

Anleitung zur Nutzung des SharePort Utility

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

! " # $ " % & Nicki Wruck worldwidewruck

Leichte-Sprache-Bilder

Über die Internetseite Hier werden unter Download/aktuelle Versionen die verschiedenen Module als zip-dateien bereitgestellt.

Cloud Computing. Ergebnisse einer repräsentativen Erhebung für das BMELV

Windows 8 Lizenzierung in Szenarien

SECURE DOWNLOAD MANAGER

Um über FTP Dateien auf Ihren Public Space Server - Zugang laden zu können benötigen Sie folgende Angaben:

Benutzerhandbuch. Leitfaden zur Benutzung der Anwendung für sicheren Dateitransfer.

Lizenzierung von SharePoint Server 2013

Umstieg auf Microsoft Exchange in der Fakultät 02

ACHTUNG: Es können gpx-dateien und mit dem GP7 aufgezeichnete trc-dateien umgewandelt werden.

Anleitung zur Einrichtung eines Netzwerkes für den Gebrauch von GVService unter Windows 7

Installation im Netzwerk

Microsoft Access 2010 Navigationsformular (Musterlösung)

BEO-Sanktionsprüfung Eine Einführung zum Thema Sanktionsprüfung und eine Übersicht zur BEO-Lösung.

Gesetzliche Aufbewahrungspflicht für s

2. Einrichtung der ODBC-Schnittstelle aus orgamax (für 32-bit-Anwendungen)

Microsoft Access 2013 Navigationsformular (Musterlösung)

Der beste Plan für Office 365 Archivierung.

Wichtige Hinweise zu den neuen Orientierungshilfen der Architekten-/Objektplanerverträge

2. Word-Dokumente verwalten

Transkript:

Marcel Poltermann Fachhochschule Erfurt Informationsmanagement

Inhaltsverzeichnis Glossar...III Abbildungsverzeichnis...III 1 Erläuterung:... 2 2 Technische Grundlagen... 2 2.1 Zugriff physische Datenträger:... 3 2.2 Zugriff In-Memory Daten:... 5 3 Datensicherheit... 5 3.1 Snapshots... 5 3.2 Nichtflüchtiger Arbeitsspeicher (NVRAM)... 5 3.3 Protokolldateien (Datenbanken)... 6 4 Relevanz... 6 5 Benchmark... 6 5.1 SAP HANA Oracle: Anfragen... 7 5.2 SAP HANA Oracle: Data Load... 7 5.3 SAP HANA SAP BWA: Anfragen... 7 6 Zusammenfassung... 7 Anhang A Quellenverzeichnis Literatur... IV Anhang B Quellenverzeichnis Bilder... IV 01.01.2015 Marcel Poltermann II

Glossar Wort API Big-Data Flash-Speicher Kernelmode SAP-HANA Server-Cluster SSD Systembibliothek (DLL) Thread Treiber Usermode Erklärung Programmierschnittstelle für Entwickler Große und komplexe Datenmengen Speicherbausteine für nicht-flüchtigen Speicher Höchster Privilegierungsstufe aktueller Prozessoren In-Memory Computing Plattform Verbund von Servern Physisches Speichermedium auf Basis von Flash-Speicher Programmbibliothek des Betriebssystems Ausführungsstrang Teil eines Prozesses Softwaremodul im kernelmode Niedrigste Privilegierungsstufe aktueller Prozessoren Abbildungsverzeichnis Abbildung Bildbeschreibung Seite Abbildung 1 Ablauf eines 3 Festplattenzugriffs unter Windows NT Abbildung 2 Aufbau einer Festplatte 4 01.01.2015 Marcel Poltermann III

1 Erläuterung: beschreibt ein Konzept, welches darauf abzielt, die Zugriffe auf physische Datenträger bei der Verarbeitung von Daten auf ein Minimum zu reduzieren und den zu verarbeitenden Teil der Daten weitestgehend im Arbeitsspeicher zu halten. Dies führt zu einer deutlichen Verkürzung von Zugriffszeiten auf die Daten und somit zu einer besseren Performance der analytischen Anwendungen 1. Unter fallen allerdings nicht nur spezielle In- Memory Datebenbanklösungen, wie sie mittlerweile von größeren Unternehmen wie SAP, Microsoft oder Oracle angeboten werden, sondern alle Applikationen welche ihre Datenanalyse an Daten durchführen, welche zum Großteil Arbeitsspeicherresident sind. 2 Technische Grundlagen Um den Unterschied zwischen klassischen Systemen und In-Memory Systemen besser zu verstehen folgt eine Erläuterung von technische Grundlagen, welche den Zugriff auf Daten bei physischen Datenträgern und bei bereits im Arbeitsspeicher befindlichen Daten beschreibt. 1 Vgl. http://www.searchenterprisesoftware.de/definition/in-memory-analytics 01.01.2015 Marcel Poltermann 2

2.1 Zugriff physische Datenträger: Bei dem klassischen Zugriff auf physische Datenträger, muss die zugreifende Anwendung eine Reihe von Systembibliotheken und Treibern durchlaufen. Abbildung 1: Ablauf eines Festplattenzugriffs unter Windows NT [Windows NT File System Internals - A Developer's Guide] Wie man in Abbildung 1 sehen kann kommt eine Lese- oder Schreibeanfrage von dem Thread einer Applikation aus dem Usermode. Diese Anfrage wird über eine Schnittstelle an den I/O Subsystem Manager Treiber übergeben, welcher dafür zuständig ist eben solche Anfragen an die betreffenden File System Driver weiterzureichen. Dieser ist wiederum dafür zuständig, den Zugriff auf das jeweils passende Dateisystem zu handhaben (z.b.: FAT, NTFS unter Windows). Daraufhin wird die Anfrage an den passenden Disk Driver weitergereicht, welcher nun dafür zuständig ist den physischen Zugriff auf die betreffenden physischen Speichermedien zu verwalten 2. In der Abbildung fehlend sind die Usermode Bibliotheken welche die Anfragen, welche über die passende Betriebssystem-API zu Verfügung gestellt werden, zu formatieren und zu validieren (im Fall von Windows z.b. kernel32.dll und ntdll.dll) welche ebenfalls die Zugriffszeit auf das Speichermedium anheben. Auch der Wechsel zwischen Usermode und Kernelmode selbst führt zu einer Verzögerung. Der Großteil der Verzögerung kommt dann allerdings durch den mechanischen Zugriff auf die Daten bei klassischen Festplatten. 2 Vgl. Windows NT File System Internals - A Developer's Guide (1997) Seite 22 01.01.2015 Marcel Poltermann 3

Abbildung 2: Aufbau einer Festplatte [technet.microsoft] Wie man in Abbildung 2 erkennen kann besteht eine Festplatte auf mehreren Platten (Platter) und Lese- und Schreibköpfen (Read/Write Heads). Die Platten enthalten mehrere Spuren (Tracks) welche selbst wiederrum Sektoren (Sectors) enthalten, in welchen die Daten gespeichert werden. Bei einem Lese- oder Schreibzugriff muss nun der Lese- und Schreibkopf als erstes an die korrekte Position bewegt und dann zur richtigen Zeit ein oder mehrere Lese- oder Schreibvorgänge durchgeführt werden. Sind die Daten fragmentiert muss der Kopf für das Lesen oder Schreiben einer Datei mehrmals die Position wechseln, wobei jeder Positionswechsel wieder eine Verzögerung zur Folge hat. In modernen Festplatten bei der sich die Platten mit 7.200U/Min drehen, liegt die Durchschnittliche Zugriffszeit somit bei ca. 8-10 Millisekunden und die Übertragungsgeschwindigkeit bei etwa 200MB lesend und schreibend, wobei der Wert mit der Größe der zu übertragenden Dateien skaliert (je größer desto besser). Eine Ausnahme stellen da allerdings SSDs dar, welche nicht auf dem mechanischen Konzept klassischer Festplatten beruhen sondern Flash-Speicher als Speichermedium nutzen. Da hier die Suche des Lese- und Schreibkopfes entfällt und lediglich ein Mikrocontroller dafür zuständig ist die korrekte Position der Daten im Flash-Speicher zu finden, verringert sich die Zugriffszeit bei SSDs deutlich und liegt somit um Durchschnitt bei 0,1 bis 0,2 Millisekunden. Auch wirkt sich die Nutzung der Flash-Speicher positiv auf die Übertragungsgeschwindigkeit von SSDs aus, welche mit ca. 500MB lesen und schreiben über den herkömmlichen Festplatten liegt. 01.01.2015 Marcel Poltermann 4

2.2 Zugriff In-Memory Daten: Der im vorherigen beschriebene Vorgang zum Zugriff auf physische Speichermedien dient letzten Endes dazu, die Daten aus diesem Speichermedium in den Arbeitsspeicher zu übertragen. Das heißt dass für den Zugriff von Daten, die bereits im Arbeitsspeicher vorhanden sind, die daraus resultierende Verzögerung vollständig entfällt und die Übertragungsgeschwindigkeit als auch die Zugriffszeit nur durch den Arbeitsspeicher selbst limitiert werden. Ein Zugriff ist auf Speicher, der bereits im Arbeitsspeicher vorhanden ist, ist daher ein direkter Zugriff auf die betreffenden Daten, ohne einen Umweg über das Betriebssystem oder dritte Hardware nehmen zu müssen. Entsprechend gut ist daher auch die daraus resultierende Leistung. Die Zugriffszeit auf Arbeitsspeicher liegt im Durchschnitt unter 100 Nanosekunden und die Übertragungsgeschwindigkeit für aktuellen Arbeitsspeicher (DDR3-2133) bei 17 Gigabyte pro Sekunde je Speichermodul 3. Zwar können durch den Speichermanager des Betriebssystems ebenfalls Verzögerungen entstehen, diese betreffen allerdings alle Arten von Lösungen und sind an dieser Stelle nicht relevant. 3 Datensicherheit Da bei so viele Daten wie möglich im Arbeitsspeicher gehalten werden sollen, kann ein Absturz des Systems fatale Folgen für die Daten haben. Deshalb gibt es verschiedene Möglichkeiten um die Persistenz von Daten zu gewährleisten und den Schaden, der durch einen Systemabsturz entstehen kann, so weit wie möglich zu minimieren 4. 3.1 Snapshots In vordefinierten Abständen werden vollständige Speicherabbilder vom Zustand der In-Memory Lösung gemacht. Diese Abbilder können dazu genutzt werden, um im Falle eines Ausfalls den Zustand wiederherzustellen. 3.2 Nichtflüchtiger Arbeitsspeicher (NVRAM) Anstatt die Daten im flüchtigen Arbeitsspeicher zu halten werden nichtflüchtige Arbeitsspeicher genutzt, welche auch nach einem Ausfall des Systems ihren Zustand beibehalten können. Man kann auch eine Kombination von flüchtigen und nicht-flüchtigen Arbeitsspeicher nutzen um die Datensicherheit zu erzielen. 3 Vgl. http://www.elektronik-kompendium.de/sites/com/1312291.htm 4 Vgl. http://de.wikipedia.org/wiki/in-memory-datenbank#nicht-persistenz 01.01.2015 Marcel Poltermann 5

3.3 Protokolldateien (Datenbanken) Bei Datebenbanklösungen welche auf der In-Memory Technologie basieren, kann man zusätzliche Protokolldateien nutzen um im Falle eines Ausfalls über die Protokolle den Zustand vor dem Ausfall zu rekonstruieren. 4 Relevanz Durch die voranschreitende Entwicklung im Bereich der Computer Hardware werden auch In-Memory Lösungen erschwinglicher. Systeme mit 1TB Ram sind mittlerweile für $20.000 erhältlich und somit auch für mittelständische Unternehmen bezahlbar 5. Somit wird die In-Memory Technologie durch fallende Preise und deutlich besserer Leistung als klassische Systeme, welche auf physischen Speichermedien allein beruhen, immer attraktiver. Des Weiteren liegt zwar momentan der Fokus noch auf für Datenbanken, doch werden auch andere Bereiche durch die fallende Preise und steigende Leistung von Hardware mit der Zeit relevanter, da jede Applikation welche mit größeren Mengen von Daten arbeiten muss, einen Leistungsgewinn über die In-Memory Technologie erfahren kann. 5 Benchmark Im Folgenden finden sich die Ergebnisse von Benchmarks zwischen klassischen Business Warehouse Lösung von SAP, SAP HANA und einer Oracle Lösung. Ausgangspunkt sind 15TB an Daten, an welche die 100 meistgenutzten Anfragen gestellt und die Leistung der einzelnen Systeme verglichen wird. Die genutzte Hardware für die SAP HANA Lösung war dabei ein Server-Cluster von 30 HP DL- 980 Servern mit 512 GB Arbeitsspeicher und 40 Prozessorkernen 6. 5 Vgl. http://gridgain.com/four-myths-of-in-memory-computing/ 6 Vgl. http://sapinsider.wispubs.com/assets/blogs/2013/september/real-hana-performance-test- Benchmarks 01.01.2015 Marcel Poltermann 6

5.1 SAP HANA Oracle: Anfragen Im Test zwischen HANA und Oracles Lösung ist die Lösung aus dem Hause SAPs bei Anfragen an das System im Schnitt 1660% schneller. Im Detail dauerten die Anfragen an das Oracle System im Schnitt 64 Sekunden wohingegen die Anfragen an HANA innerhalb von 4 Sekunden beantwortet wurden. In einigen Fällen, speziell bei Anfragen welche man eine Struktur aufweisen wie man sie im Finanzsektor findet, ist HANA bis zu 5000% schneller als Oracle. 5.2 SAP HANA Oracle: Data Load Beim Laden von Daten steht die Lösung von SAP im Vergleich ebenfalls besser da. Dabei wurden 530 data load jobs, also das Aggregieren von Daten aus einer oder mehreren Quellen welche in unterschiedlichen Formaten vorliegen können und bereitstellen in der eigenen Datenbanklösung, durchgeführt. Im Schnitt war hier HANA 43% schneller als Oracle. 5.3 SAP HANA SAP BWA: Anfragen Als letztes wurde noch ein Vergleich von Antwortzeiten von Anfragen zwischen SAP HANA und SAP BWA (Business Warehouse Accelerator) durchgeführt. Hierbei erzielte HANA eine 64% bessere Leistung mit einer durchschnittlichen Antwortzeit von 15 Sekunden im Vergleich zu BWAs 43,6 Sekunden. 6 Zusammenfassung als Technologie ist der logische Schritt hin zu höherer Leistung in analytischen Applikationen und wird auch in Zukunft immer weiter an Relevanz gewinnen, nicht zuletzt weil das Datenaufkommen mit voranschreiten der Technologie ebenfalls immer stärker wachsen wird. Nicht zuletzt tragen auch die Cloud-Lösungen und das Verlangen nach Big-Data Lösungen in vielen Bereichen dazu bei, das die Suche nach immer leistungsfähigeren System und Technologien vorangetrieben wird, wofür die In-Memory Technologie speziell im Bereich der Datenbanken noch lange Zeit als Lösung dienen wird. 01.01.2015 Marcel Poltermann 7

Anhang A Quellenverzeichnis Literatur Quelle Zugriff 1) http://www.searchenterprisesoftware.de/definition/in-memory- 01.01.2015 21:00 Analytics 2) http://venom630.free.fr/pdf/windows%20nt%20file%20system 01.01.2015 21:00 %20Internals%20-%20A%20Developer%27s%20Guide%20(1997).pdf (Windows NT File System Internals - A Developer's Guide (1997) 3) http://www.elektronik-kompendium.de/sites/com/1312291.htm 01.01.2015 21:00 4) http://de.wikipedia.org/wiki/in-memory-datenbank#nicht-persistenz 01.01.2015 21:00 5) http://gridgain.com/four-myths-of-in-memory-computing/ 01.01.2015 21:00 6) http://sapinsider.wispubs.com/assets/blogs/2013/september/real- 01.01.2015 21:00 HANA-Performance-Test-Benchmarks Anhang B Quellenverzeichnis Bilder Abbildung Quelle Zugriff Abbildung 1 Windows NT File System Internals - A Developer's 01.01.2015 21:00 Guide (1997) Seite 22 Figure 2-1. Local file system Abbildung 2 http://i.technet.microsoft.com/dynimg/ic306536.jpg 01.01.2015 21:00 01.01.2015 Marcel Poltermann IV