EXASOL Anwendertreffen 2012

Ähnliche Dokumente
Marketing Intelligence Schwierigkeiten bei der Umsetzung. Josef Kolbitsch Manuela Reinisch

Kurzanweisung für Google Analytics

Fragebogen zur Erfassung der Anforderungen eines Websiteprojekts

Prof. Dr.-Ing. Rainer Schmidt 1

Wie verbinde ich ein JBOD-System mit dem QStore QMX? - 1

SEMINAR Modifikation für die Nutzung des Community Builders

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Neuerungen in ReviPS Version 12g

Wissensdatenbankeintrag zur Sage New Classic Ab Version 2011 WDB Artikel: 21306

«Integration in WebSite» HTML-/Javascript-Code-Beispiele

SOLISYON GMBH CHRISTIAN WOLF, BENJAMIN WEISSMAN. Optimierung von Abfragen in MS SQL Server DWH-Umgebungen

Schritt für Schritt zur Krankenstandsstatistik

Wie Sie sich einen eigenen Blog einrichten können

Bearbeitung und Download von grossen Datenmengen in STAT-TAB

Aufgaben zur Flächenberechnung mit der Integralrechung

mit Musterlösungen Prof. Dr. Gerd Stumme, Dipl.-Inform. Christoph Schmitz 11. Juni 2007

Orientierungstest für angehende Industriemeister. Vorbereitungskurs Mathematik

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Grundsätze für das Online-Marketing der TMB

Die Invaliden-Versicherung ändert sich

Whitepaper. Produkt: combit Relationship Manager / address manager. Integration der Ansicht "Adressen" in eigene Solution

Jede Zahl muss dabei einzeln umgerechnet werden. Beginnen wir also ganz am Anfang mit der Zahl,192.

CaRD Add-on for SAP Materials Master Report Interpreter Pflege mehrsprachiger Kurztexte im Materialstamm

Social Media. Marketing und Kommunikation mit Facebook, Twitter, Xing & Co.

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

Anleitung OpenCms 8 Webformular Auswertung

Tutorial. Wie kann ich meinen Kontostand von meinen Tauschpartnern in. übernehmen? Zoe.works - Ihre neue Ladungsträgerverwaltung

Spiel und Spaß im Freien. Arbeitsblat. Arbeitsblatt 1. Zeichnung: Gisela Specht. Diese Vorlage darf für den Unterricht fotokopiert werden.

Professionelle Seminare im Bereich MS-Office

Digitaler*Ausstellungsbegleiter*für*Mobilgeräte ** * * * Alter: Studiengang: Geschlecht: $ $ $ $ Datum: Falls%Ja,%welches? Falls%ja, %welches?

Telenet SocialCom. verbindet Sie mit Social Media.

Anwendungsbeispiele Buchhaltung

Quiz mit Google Docs erstellen

Anleitung. So erstellen Sie eine Familienkarte für Ihre Gemeinde. 1. Google-Konto eröffnen

Guide DynDNS und Portforwarding

Reporting Services und SharePoint 2010 Teil 1

Wir gehen aus von euklidischen Anschauungsraum bzw. von der euklidischen Zeichenebene. Parallele Geraden schneiden einander nicht.

Internet Explorer Version 6

SMART Newsletter Education Solutions April 2015

Rechnung Angebot Zeiterfassung

«/Mehrere Umfragen in einer Umfrage durchführen» Anleitung

LabTech RMM. Integration von Teamviewer. Vertraulich nur für den internen Gebrauch

Social-CRM (SCRM) im Überblick

Suchmaschinenoptimierung (SEO) für Ärzte Fallbeispiel Google

PK-Website: Besuche & Seitenaufrufe 2010 und 2011

Anleitung Abwesenheitsmeldung und -Weiterleitung (Kundencenter)

360 - Der Weg zum gläsernen Unternehmen mit QlikView am Beispiel Einkauf

CustomerStory. So bringt man sein Markenportfolio erfolgreich an den B2B-Kunden:

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

IntelliRestore Seedload und Notfallwiederherstellung

Checkliste zur Planung einer Webseite

Beispiel vor dem Beweis:

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Er musste so eingerichtet werden, dass das D-Laufwerk auf das E-Laufwerk gespiegelt

Whitepaper. Produkt: combit List & Label 16. List & Label Windows Azure. combit GmbH Untere Laube Konstanz

Mobile Communication Report Wien, 27. September 2012

pro4controlling - Whitepaper [DEU] Whitepaper zur CfMD-Lösung pro4controlling Seite 1 von 9

Waren-Rücksendungen und Gutschriften beim Wareneingang

Die Post hat eine Umfrage gemacht

Einführung in PHP. (mit Aufgaben)

Access Verbrecherdatenbank Teil 3

Typo3 - Inhalte. 1. Gestaltung des Inhaltsbereichs. 2. Seitenunterteilung einfügen

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Falten regelmäßiger Vielecke

teischl.com Software Design & Services e.u. office@teischl.com

Leitfaden trixikfz Online

reimus.net GmbH RS-Bilanzanalyse Handbuch zum Excel-Tool

2. Einrichtung der ODBC-Schnittstelle aus orgamax (für 32-bit-Anwendungen)

Kampagnen. mit Scopevisio und CleverReach

Berechnungen in Access Teil I

Virtual Roundtable: Business Intelligence - Trends

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

Version Deutsch In diesem HOWTO wird beschrieben wie Sie Ihren Gästen die Anmeldung über eine SMS ermöglichen.

1. EINLEITUNG 2. GLOBALE GRUPPEN Globale Gruppen anlegen

1 PIVOT TABELLEN. 1.1 Das Ziel: Basisdaten strukturiert darzustellen. 1.2 Wozu können Sie eine Pivot-Tabelle einsetzen?

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Excel Pivot-Tabellen 2010 effektiv

Bei der Anlage von Pauschalen ist folgendes zu beachten!!!!!!!!

Informatik 12 Datenbanken SQL-Einführung

WERBEMÖGLICHKEITEN 2015/2016

Inhalt: Schritt für Schritt zu eigenen Angeboten

Externe Authentifizierung. Externe Authentifizierung IACBOX.COM. Version Deutsch

So gehts Schritt-für-Schritt-Anleitung

Quartalsabrechnung! " " " " " " " Stufe 1! Beheben von Abrechnungsfehlern" Stufe 2! Neue Abrechnung erstellen"

Datenbank-Verschlüsselung mit DbDefence und Webanwendungen.

Titel. SCSM ITIL - CMDB - neue CI Klasse erstellen und benutzen. Eine beispielhafte Installationsanleitung zur Verwendung im Testlab

Erstellung eines Google-Kontos Stand: Juni 2013

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Bevölkerung mit Migrationshintergrund an der Gesamtbevölkerung 2012

Nach der Anmeldung im Backend Bereich landen Sie im Kontrollzentrum, welches so aussieht:

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

e-books aus der EBL-Datenbank

Keyword Research Basics

SEO. am Beispiel von. Jürgen Schlott

Whitepaper. Produkt: combit Relationship Manager. Einbindung externer FiBu-/Warenwirtschaftsdaten. combit GmbH Untere Laube Konstanz

Projektbericht Gruppe 12. Datenbanksysteme WS 05/ 06. Gruppe 12. Martin Tintel Tatjana Triebl. Seite 1 von 11

Transkript:

EXASOL Anwendertreffen 2012 EXAPowerlytics

Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Erweiterte Möglichkeiten durch EXAPowerlytics Scripting Focus: Funktionen, M/R Analysen, Statistik, Data Mining Sprachen: LUA, R, Python Laufen auf allen Knoten parallel Aufrufbar innerhalb von SQL Rückgabewert: jeglicher Datentyp oder Tabelle Bibliotheken: String, Math, Table, XML, HTTP, JSON, Numeric Verarbeitung unstrukturierter Daten inkl. Hadoop-Anbindung Verarbeitung externer Daten: direkt Skalare Funktionen, Aggregats- und analytische Funktionen mit Scripting-Sprachen 3

Vorteile, Möglichkeiten und Bausteine Verlagerung der Algorithmen zu den Daten Weniger Requests Client/Datenbank Massive Parallelisierung der Algorithmen Mit SQL nur schwer zu lösen: Text Tokenisierung, Indizierung und Suche Erstellen bestimmter Datenstrukturen, z.b. Graphen Data Mining und Machine Learning 4 verschiedene Funktionstypen: CREATE LUA/R/PYTHON SCALAR SCRIPT RETURNS (1 IN, 1 OUT) CREATE LUA/R/PYTHON SET SCRIPT RETURNS (* IN, 1 OUT) CREATE LUA/R/PYTHON SCALAR SCRIPT EMITS (1 IN, * OUT) CREATE LUA/R/PYTHON SET SCRIPT EMITS (* IN, * OUT) 4

5

Herausforderungen bei der Analyse von Online-Daten 1. Integration externer unstrukturierter Datenquellen a. Struktur einer Web-Site o. eines Blogs ermitteln b. Die einzelnen Seiten einlesen 2. Häufigkeit gewünschter Begriffe ermitteln a. Metadaten (HTML o.ä.) entfernen b. Nutzdaten in einzelne Begriffe (Wörter o. Wortgruppen) zerlegen c. Stopwords ( und, der, die ) filtern d. Begriffe normieren ( Bayern München = FC Bayern ) 3. Begriffsfrequenzen in Zusammenhang mit klassischen Kennzahlen bringen a. Begriffe auf Produkte abbilden ( Bayern München Trikots von FC Bayern München ) 4. Auswertungen über gewohntes Werkzeug (BI-Tool ) 7

Ergebnisse Automatisierte Prozesse zur Auswertung von Online- Publikationen laufen regelmäßig Die Daten werden mit Zeitstempel archiviert Über reguläre Reports werden entsprechende Zusammenhänge visuell aufbereitet Unterschiedlichste Kennzahlen können abgebildet werden Auch historische Auswertungen sind möglich Ausblick: Semantische Analyse der Publikationen (positiv, neutral, negativ etc.) Integration von Facebook, Google+, Twitter etc. 8

Beispiel: Erstellung einer interaktiven Tag Cloud 9

Powerlytics: Anwendungsbeispiel Begriffe Quelle: Medizinische Artikel aus 2011 (Pubmed) Ziel: Welche Themen beschäftigten Medizinforscher 2011 10

Herausforderung Lädt man die Artikel in eine Datenbank, stehen in einer Zeile Titel und Description 11

Herausforderung Um die Frequenzen für die Begriffe zu berechnen, geht man in folgenden Schritten vor: 1. Titel muss auf einzelne Wörter aufgesplittet werden. Diese Wörter müssen als eine Tabelle dargestellt werden. D.h., aus einer Zeile in der Datenbank müssen mehrere erstellt werden. 2. zusätzlich will man auch sog. Stopwords wie as, while usw. herausfiltern und 3. die Begriffe normieren, d.h. cell und cells, b-catenin und beta-catenin als einen denselben Begriff erkenntlichen machen Im Unterschied zu den Aufgaben 2 und 3, ist die Aufgabe 1 mit Hilfe von SQL nicht lösbar. 12

Lösung: EXAPowerlytics Die Aufgabe 1 wird mit Hilfe von einer user-defined skalaren Funktion (in LUA) gelöst, die den MAP-Schritt implementiert 13

Weitere Verarbeitung Die erstellte Funktion kann in die SELECT-Liste von einer Query einfach verwendet werden: Um die Aufgabe 2 und 3 zu lösen benötigen wir 2 Tabellen. Die erste enthält sog. Stopwords Die zweite enthält Übersetzungen : 14

View erstellen Nun haben wir alles, um eine View zu erstellen, die einen Begriff mit dem dazugehörigen ID zurückliefert. Die so erstellte View können wir in jedem BI-Tool weiter verarbeiten, so dass die meisten Nutzer die Vorteile von EXAPowerlytics nutzen können, ohne sich mit der Komplexität der Materie beschäftigen zu müssen 15

Ergebnis 16

Contact EXASOL AG Neumeyerstr. 48 90411 Nürnberg Fon: +49 911.23991.299 Fax: +49 911.23991.5299 Johannes Meier Presales Consultant johannes.meier@exasol.com 18