Kann man Big Data managen? Wie passt Big Data in Information Governance Konzepte? Uwe Nadler Senior Managing Consultant Information Agenda Architect
Themen Die Bedeutung von Information Governance Was ist Big Data? Kann man Big Data beherrschen? Architekturansätze Zusammenfassung 2 2013 International Business Machines Corporation 2
Die Information Governance Community erarbeitet Definitionen, Vorgehensweise und konkrete Arbeitsergebnisse Information Governance ist die Orchestrierung von Personen, Prozessen und Technologien, die eine Organisation befähigt, Information wie ein Wirtschaftsgut zu nutzen. Reifegrad Modell Optimiert Information Governacne Framework Ziele Treiber Kerndisziplinen Hilfsdisziplinen Kontinuierliche Weiterentwicklung von Best Practices und Maturity Modell 2013 2012 2011 2010 2009 2008 Information Governance im Zeitalter von Big Data Vorschläge für die Risikoprävention vor dem Hintergrund der Finanzkrise Wiederholbar Initial Kontrolliert Definiert http://www.infogovcommunity.com Information Governance Maturity Model IBM gründet mit ca. 40 weiteren Unternehmen das Information Governance Council 2007 2006 2005 2004 Information Governance Framework 2013 International Business Machines Corporation 3
Information Governance beruht auf einer Reihe von verknüpften Disziplinen Ziele Geschäftsnutzen Treiber (Enabler) erfordern Organisatorische Strukturen & Problembewusstsein Stewardship Informations- Risiko-Management Kerndisziplinen (Core) Richtlinien & Regeln ermöglichen Unterstützen Datenqualitäts- Management Management des Informations-Lebenszyklus Hilfsdisziplinen (Supporting) Informationssicherheit & Datenschutz Datenverarbeitungs- Architektur Klassifikation & Metadaten Audit-Informationen, Protokollierung & Berichte 2013 International Business Machines Corporation 4
Viele Organisationen haben in den vergangenen Jahren mit der Implementierung von Information Governance - Konzepten begonnen Trend 1: Ernennung von Information Governance Verantwortlichen In Social Networking Tools wie LinkedIn oder XING findet man tausende Personen mit Information Governance oder Data Governance in ihrem Titel. Es gibt einen anhaltenden Trend für eine 100% Zuständigkeit für Information Governance Themen für diese Personen. Trend 2: Die unternehmerische Verantwortung für Information Governance wächst Information Governance wird zunehmend als Stelle wahrgenommen, die Regeln rund um Daten erarbeitet. Risk Management in Banken, Verkaufsförderung im Handel, und Marketing und Buchhaltung: alle sind beteiligt oder betroffen von Information Governance. Trend 3: Kontinuierlich verbesserte Messbarkeit der Information Governance Metriken unterstützen die Fokussierung auf Information Governance Themen: You only do what you can measure 2013 International Business Machines Corporation 5
Big Data : Vielfältige, schnell wachsende und unkontrollierte Daten Kriterien von Big Data 2013 International Business Machines Corporation 6
Big Data Neue Datenwelten erschliessen 1.3 Mrd. RFID tags in 2005 30 Mrd RFID today 2 Mrd. Internet Anwender by 2011 4.6 Mrd. Mobiltelefone weltweit Wachstum des Datenvolumens an Kapitalmärkten 1.750%, 2003-06 Twitter verarbeitet täglich 7 terabytes World Data Centre for Climate 220 Terabytes of Web data 9 Petabytes of additional data Facebook verarbeitet täglich 10 terabytes 2013 International Business Machines Corporation 7
Die Vier V von Big Data treten in unterschiedlichsten Ausprägungen auf Transaktiondaten Anwendungsdaten Maschinendaten Social Media Daten Menschlich erzeugte Daten Datenmengen Geschwindigkeit Vielfalt Vielfalt Strukturiert Hoher Durchsatz Semi-strukturiert automatisch erzeugt In höchstem Maße unstrukturiert Verlässlichkeit Höchst unstrukturiert Datenmenge 2013 International Business Machines Corporation 8
Big Data macht nicht Alles Neu, sondern ergänzt bekannte Konzepte Traditioneller Ansatz Strukturiert, analytisch, logisch Neuer Ansatz kreativ, ganzheitlich, intuitiv, explorativ Transaction Data Data Warehouse Hadoop Streams Web Logs Internal App Data Structured Repeatable Mainframe Data Linear Strukturiert Wiederholbar Linear Monthly sales reports Profitability analysis Customer surveys OLTP System Data ERP data Traditional Sources Enterprise Integration Unstrukturiert Erforschend Iterativ New Sources Social Data Unstructured Exploratory Iterative Text Data: emails Brand sentiment Sensor data: images Product strategy Maximum asset utilization RFID 2013 International Business Machines Corporation 9
Big Data Governance: Information Governance auf Big Data anwenden Transaktionsdaten Maschinendaten Social Media Human Generated Org. Strukturen Stewardship Geschäftsnutzen Info-Risk- Mgmt Richtlinien Datenqualität Lebenszyklus Datenschutz Use Cases / Business cases / Business Opportunities Wer entscheidet über Art und Verwendung von Big Data? Erarbeitung von Vorschlägen für Nutzung und Regeln Welche Risiken ergeben sich (auch: juristisch) Wie müssen die Richtlinien zum Umgang mit BIG Data aussehen? Wie kann Datenqualität definiert und gemessen werden? Wie gehen wir mit alten Big Data um? Wann sind Big Data überhaupt alt? Welche Daten dürfen überhaupt erhoben und wie verarbeitet werden? DV- Architektur Klassifikation; Metadaten Reporting / Auditing Wie passen Big Data Lösungen in die bestehende Landschaft Fachliche und technische Definition und Struktur der zu verwendenden Daten Messbarkeit von Risiken, Wert und Wirksamkeit von Big Data 2013 International Business Machines Corporation 10
Ein Beispiel: Datenqualität auf Big Data anwenden Beispiel: Twitter Tweets Organisation: Datenentstehung Die Entstehung der Tweets entzieht sich den Regularien Metadaten Technischen Metadaten der Twitter Tweets sind auswertbar (z.b. Date, Time, Language, Location, UserName) Geschäftsnutzen Organisation Stewardship Info-Risk-Mgmt Richtlinien Datenqualität Lebenszyklus Datenschutz DV-Arch. Klassifikation; Metadaten Reporting Abgleich mit existierenden fachlichen und technischen Definitionen erforderlich Beispiel: Ist der User-Name ein echter Name (trifft auf ca. 40-50% der Twitter User zu)? evtl. können Kundenstammdaten anhand von Twitter Tweets angereichert werden Verläßlichkeit Twitter Tweets enthalten einen großen Anteil an Rauschen. Nur der Anteil an relevanter Information muß mit semantischen Methoden herausgefiltert werden. Trans. Masch. Social Media DQ-Messbarkeit Datenqualität läßt sich nicht präzise messen; statt dessen bietet es sich an Qualitäts- Konfidenzintervallen zu definieren (Very High, High, Medium, Low) Für allgemeine Aussagen muß die Datenmenge groß genug sein (z.b. für Customer Sentiment Analysen) Inhalte Die Inhalte müssen in einem explorativen Prozess ggf. in Bezug auf die Metadaten bewertet werden. 2013 International Business Machines Corporation 11 Human gener.
IBM verfolgt die Idee einer Big Data Plattform Analytic Applications BI / Exploration / Functional Industry Predictive Reporting Visualization App App Analytics Content Analytics IBM Big Data Platform Übersicht über die Daten erhalten InfoSphere Data Explorer Visualization & Discovery Application Development Accelerators Systems Management Vereinfachtes Data Warehouse IBM Warehouse Solutions / Pure Data Appliances Rohdaten analysieren und IT Kosten reduzieren Hadoop System Stream Computing Data Warehouse 5 Datenströme analysieren InfoSphere Streams InfoSphere BigInsights Information Integration & Governance 2013 International Business Machines Corporation 12
Big Data als Teil einer Information Management Architektur Die neuen, aus Big Data gewonnen Erkenntnisse, dienen der unternehmerischen Entscheidungsfindung Big Data erweitern und ergänzen existierende BI Landschaften Big Data kann dazu dienen, existierende Daten (z.b. Stammdaten) zu ergänzen oder anzureichern Information Governance Analytics Traditionelle DWH Komponenten Spezielle Big Data Lösungen Quelle: Konzeptionelle Komponentenarchitektur des analytischen Ekosystems ;Steria Mummert Consulting 2013 International Business Machines Corporation 13
Gartner: Hadoop Is Not a Data Integration Solution As use of the Hadoop stack continues to grow, organizations are asking if it is a suitable solution for data integration. Today, the answer is no. Not only are many key data integration capabilities immature or missing from the stack, but many have not been addressed in current projects. Quelle: http://www.gartner.com/technology/repri nts.do?id=1-1e7ott7&ct=130225&st=sb Quelle: Information Capabilities Framework: Gartner Jan 2013 2013 International Business Machines Corporation 14
IBM Information Management Lösungen bilden die technologische Basis, um Big Data in Governance-Prozesse einzubinden Data Visualization & Exploration Stream Computing InfoSphere Data Explorer Hadoop System InfoSphere Big Insights InfoSphere Streams Data Warehouse Pure Data Systems Metadaten Bus. Glossary Policies & Rules Data Lineage Konnektivität via Information Server Data Security mit Q-Radar & Data access auditing mit Guardium für Big Insights Optim Lifecycle Management Information Integration and Governance Information Integration Master Information Security & Privacy Lifecycle Management InfoSphere Information Server InfoSphere Master Data Management InfoSphere Guardium & Optim Data Privacy InfoSphere Optim Lifecycle Management 2013 International Business Machines Corporation 15
Information Governance ist auch oder gerade WEGEN Big Data eine wichtige Grundlage von Information Management Die Disziplinen einer Information Governance sind auch im Zeitalter von Big Data relevant Big Data liegen innerhalb und außerhalb des eigenen Unternehmens Eine wichtige Aufgabe besteht darin, die etablierten Informationen mit Big Data anzureichern und bessere Entscheidungen zu treffen IBM InfoSphere Lösungen helfen dabei, das alles im Auge zu behalten. erfordern unterstützen Ziele Geschäftsnutzen Treiber (Enabler) Organisatorische Strukturen & Problembewusstsein Stewardship Datenqualitäts- Management Datenverarbeitungs- Architektur Informations- Risiko-Management Kerndisziplinen (Core) Management des Informations-Lebenszyklus Hilfsdisziplinen (Supporting) Klassifikation & Metadaten Richtlinien & Regeln Informationssicherheit & Datenschutz Audit-Informationen, Protokollierung & Berichte ermöglichen Information Integration and Governance Tools 2013 International Business Machines Corporation 16
Big Data und Information Governance sind wichtige Themen auch hier auf dem Information Management Forum 16:20 17:10 (Brüssel) IBM Security Analytics für Big Data Markus Auer, Sales Director Q1 Labs, an IBM Company 15. April 11.30 12.20 (Peking) Big Data der Rohstoff der Zukunft! Wie Sie auch mit Big Data Datenschutz und Datensicherheit fest im Griff behalten Sven Herschel, Senior Technical Sales Professional, IBM & Wolfgang Epting, Senior Technical Sales Professional, IBM 11.30 12.20 (Brüssel) Ist die Wahrheit noch zu retten? Ergebnisse der europäischen Business Intelligence Maturity Audit Studie (bima2013) Dr. Carsten Dittmar, Senior Manager, Enterprise Information Management, Steria Mummert Consulting & Volker Ossendoth, Principal Consultant, Enterprise Information Management, Steria Mummert Consulting 13.30 14.20 (Peking) Information Integration in Zeiten von Big Data mit IBM Information Server 9.1 Christian Lenke, Leading Technical Sales Professional, IBM 16. April 14.30 15.20 (Buenos Aires) Einmal Pie Chart und zurück: Manchmal ist mehr drin als man glaubt! Ian Perry, Client Technical Specialist, IBM & Marco Lehmann, Client Technical Specialist, IBM & Stefan Sander, Senior Technical Sales Specialist, IBM 2013 International Business Machines Corporation 17