SEMINAR FÜR WIRTSCHAFTSINFORMATIK UND SYSTEMENTWICKLUNG. Prof. Dr. Werner Mellis. Hauptseminar Wirtschaftsinformatik im Sommersemester 2013



Ähnliche Dokumente
IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

Big, Bigger, CRM: Warum Sie auch im Kundenmanagement eine Big-Data-Strategie brauchen

Systemen im Wandel. Autor: Dr. Gerd Frenzen Coromell GmbH Seite 1 von 5

Positionspapier Big Data

Virtual Roundtable: Business Intelligence - Trends

Kundenzufriedenheit Beschwerdemanagement als Instrument zur Kundenbindung

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 392

Talentmanagement in Unternehmen gestalten. Suche und Bindung von technischen Fachkräften

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am

OUTSOURCING ADVISOR. Analyse von SW-Anwendungen und IT-Dienstleistungen auf ihre Global Sourcing Eignung. Bewertung von Dienstleistern und Standorten

Tech-Clarity Perspective: Best Practices für die Konstruktionsdatenverwaltung

Integration mit. Wie AristaFlow Sie in Ihrem Unternehmen unterstützen kann, zeigen wir Ihnen am nachfolgenden Beispiel einer Support-Anfrage.

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

Wissenschaftlicher Bericht

Hauptseminar Entwicklung von Informationssystemen

Fragebogen: Abschlussbefragung

Data Mining: Einige Grundlagen aus der Stochastik

Studie über die Bewertung von Wissen in kleinen und mittleren Unternehmen in Schleswig-Holstein

TOP. wird ein wichtiges Jahr für BIG (Business Intelligence Growth) DER BUSINESS INTELLIGENCE TRENDS FÜR DAS JAHR 2013

SDD System Design Document

Ziel- und Qualitätsorientierung. Fortbildung für die Begutachtung in Verbindung mit dem Gesamtplanverfahren nach 58 SGB XII

Mobile Intranet in Unternehmen

Leseprobe. Mit Projekten Unternehmen erfolgreich führen. KNo W- HoW. Studie. Ergebnisbericht. Ronald Gleich. Reinhard Wagner.

Die Zukunft der Zukunftsforschung im Deutschen Management: eine Delphi Studie

Betriebswirtschaftslehre mit Schwerpunkt Internationales Management Prof. Dr. Carola Jungwirth. Seminararbeit. Projekt-Seminar INSTEAD im SS 2011

Data Mining-Projekte

W.WIINM32.11 (Datawarehousing) W.WIMAT03.13 (Statistik)

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Big & Smart Data. bernard.bekavac@htwchur.ch

Richtlinien der Osteopathie Schule Deutschland zur Abschlussarbeit für die Erlangung der Ausbildungsbezeichnung D.O.OSD.

SWOT-Analyse. Der BABOK V2.0 (Business Analysis Body Of Knowledge) definiert die SWOT-Analyse wie folgt:

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Test zur Bereitschaft für die Cloud

Das System sollte den Benutzer immer auf dem Laufenden halten, indem es angemessenes Feedback in einer angemessenen Zeit liefert.

Mobile Advertising am Point-of-Sale

1 Mathematische Grundlagen

Impuls-Studie Enterprise Mobility

BI in der Cloud eine valide Alternative Überblick zum Leistungsspektrum und erste Erfahrungen

InfoSEC AWARENESS RESSOURCEN BESTMÖGLICH NUTZEN. RISIKEN PRAKTIKABEL REDUZIEREN. InfoSEC Awareness Ein Workshop von ExpertCircle.

Private Vorsorge für den Pflegefall

Big Data Mythen und Fakten

Prof. Dr.-Ing. Rainer Schmidt 1

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Klaus-Peter Wiedmann Frank Bachmann Tina Durst. Erfolgsfaktoren von Hospitality im Bereich des Sports Ergebnisse einer empirischen Untersuchung

Content Management System mit INTREXX 2002.

Microsoft (Dynamics) CRM 2020: Wie verändern sich Markt, Eco-System und Anwendungsszenarien nach Cloud & Co?

Seminar. NoSQL Datenbank Technologien. Michaela Rindt - Christopher Pietsch. Richtlinien Ausarbeitung (15. November 2015)

IDV Assessment- und Migration Factory für Banken und Versicherungen

Fragebogen ISONORM 9241/110-S

Checkliste zur qualitativen Nutzenbewertung

Deutschland-Check Nr. 35

Begriff 1 Begriff 2 Datenbank 1

Vergleich verschiedener Visualisierungsinstrumente zur online Landschaftsbildbewertung

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Persönliche Einladung. Zur IT Managers Lounge am 4. November 2009 in Köln, Hotel im Wasserturm.

BMV Visionen Ergebnisbericht der Mitglieder Befragung

Reputation von Fußball-Clubs Entwicklung und empirische Überprüfung eines Messkonzepts auf Basis der Reputation Quotient (RQ)

Studie über Umfassendes Qualitätsmanagement ( TQM ) und Verbindung zum EFQM Excellence Modell

Mai Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

Erfassung von Umgebungskontext und Kontextmanagement

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 350

Mitarbeiterbefragung als PE- und OE-Instrument

Software Qualität: Übung 3

Social Supply Chain Management

Ishikawa-Diagramm. 1 Fallbeispiel 2. 2 Was ist ein Ishikawa-Diagramm 2. 3 Vorgehen bei der Erstellung eines Ishikawa-Diagramms 2.

SSI WHITE PAPER Design einer mobilen App in wenigen Stunden

Der beste Plan für Office 365 Archivierung.

Analyse des Einsatzpotenzials der Radiofrequenzidentifikation (RFID) in der Distributionslogistik

Tabelle: Maßnahmen und Datenschutz-Kontrollziele zu Baustein 1.5 Datenschutz

FAQ 04/2015. Auswirkung der ISO auf 3SE53/3SF13 Positionsschalter.

Speicher in der Cloud

Beschreibung des MAP-Tools

Acht Gute Gründe für Integration und einen Content Backbone

Leseauszug DGQ-Band 14-26

Der Begriff Cloud. Eine Spurensuche. Patric Hafner geops

Methode Online Befragung 16 geschlossene Fragen Durchgeführt im März 2015 im Rahmen des Future of Work HR Kongresses.

Datenqualität: allgemeiner Überblick Waldemar Braun. Seminar Datenqualität OvGU Magdeburg

Jeopardy and andere Quizformate im bilingualen Sachfachunterricht Tipps zur Erstellung mit Powerpoint

Mitarbeiterbefragung zur Führungsqualität und Mitarbeitermotivation in Ihrem Betrieb

Bei der Focus Methode handelt es sich um eine Analyse-Methode die der Erkennung und Abstellung von Fehlerzuständen dient.

2. Psychologische Fragen. Nicht genannt.

Ergebnisse der Befragung auf dem 11. Karrieretag Familienunternehmen

Team Collaboration im Web 2.0

DGIQ Projekt IQ-Definition

Research Note zum Thema: Laufzeit von Support-Leistungen für Server OS

Second Steps in eport 2.0 So ordern Sie Credits und Berichte

Das Projekt wird durchgeführt von den Bezirksregierungen in Nordrhein- Westfalen in ihrer Funktion als Fachstelle für die öffentlichen Bibliotheken

Supporting Consumers by Characterizing the Quality of Online Health Information: A Multidimensional Framework. Von Dominic Kipry

Der MEISTERKREIS-Index 2013 (Ausgabe 1)

Executive Summary BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie

THE KNOWLEDGE PEOPLE. CompanyFlyer.indd :48:05

Bachelor Prüfungsleistung

Herzlich Willkommen beim Webinar: Was verkaufen wir eigentlich?

1.3 MDM-Systeme KAPITEL 1 ZAHLEN UND FAKTEN

Erfolgreiche ITIL Assessments mit CMMI bei führender internationaler Bank

Interkulturelles Projektmanagement in internationalen Projekten am Beispiel von afghanischen Mitarbeitern. Bachelorarbeit

Transkript:

SEMINAR FÜR WIRTSCHAFTSINFORMATIK UND SYSTEMENTWICKLUNG Prof. Dr. Werner Mellis Hauptseminar Wirtschaftsinformatik im Sommersemester 2013 Thema-Nr. 32 Big Data und Herausforderungen für die Datenqualität vorgelegt von: Greulich, Malte

II Inhaltsverzeichnis Abkürzungsverzeichnis... III Abbildungsverzeichnis... IV Tabellenverzeichnis...V 1. Einleitung... 1 1.1 Problemstellung und Zielsetzung... 1 1.2 Aufbau der Arbeit... 2 2. Grundlagen der Big-Data-Analyse und der Datenqualität... 3 2.1 Analyse von Big Data... 3 2.2 Konzept der Datenqualität... 5 3. Herausforderungen für die Datenqualität bei Big Data... 8 3.1 Ursachen von Datenqualitätsproblemen... 8 3.2 Identifizierung von relevanten Datenqualitätsdimensionen... 11 3.2.1 Konzeption der Untersuchung... 11 3.2.2 Ergebnisse der Untersuchung... 11 3.2.3 Diskussion identifizierter Datenqualitätsdimensionen... 13 4. Fazit und Ausblick... 17 Literaturverzeichnis... 19 Anhang: Auswertung der Literaturrecherche... 24

III Abkürzungsverzeichnis BI DQ OLAP RDBMS RSS XML Business Intelligence Datenqualität Online Analytical Processing Relational Database Management System Really Simple Syndication Extensible Markup Language

IV Abbildungsverzeichnis Abb. 2-1: Prozess der Big-Data-Analyse... 4

V Tabellenverzeichnis Tab. 2-1: Dimensionen der Datenqualität... 7 Tab. 3-1: Ursachen von Datenqualitätsproblemen bei Big Data... 8 Tab. 3-2: Klassifikation von Typen von Daten... 9 Tab. 3-3: Identifizierte Datenqualitätsdimensionen in der Big-Data-Literatur... 12

1 1. Einleitung 1.1 Problemstellung und Zielsetzung Für die Ableitung von Erkenntnissen aus den Geschäftsdaten von Organisationen und dem Einsatz dieser Daten bei der Entscheidungsfindung, ist es erforderlich, dass die Daten in hoher Datenqualität vorliegen. 1 Die Gewährleistung einer angemessenen Datenqualität stellt zunehmend einen wettbewerbsrelevanten Faktor dar. 2 Die Entwicklungen in der Informationstechnologie (IT) und des Internets haben es Organisationen ermöglicht, enorme Mengen an Big Data aus deren Geschäftsumfeld zu sammeln und zu speichern, als dies noch in vergangenen Jahrzehnten der Fall war. 3 Im Hinblick auf die Speicherung, Verarbeitung und Analyse dieser Daten ergeben sich neue Herausforderungen für die Datenqualität. 4 Die Analyse von Ursachen für Datenqualitätsprobleme ermöglicht es, Datenqualität besser zu bewerten und die Folgen schlechter Datenqualität eingrenzen zu können. Die Untersuchung von Herausforderungen und insbesondere die Analyse der Bedeutung von Datenqualitätsdimensionen bei Big Data sind in der wissenschaftlichen Diskussion nach Kenntnis des Autors bisher nicht erfolgt. Das Ziel dieser Arbeit ist es daher, einen Überblick über die Herausforderungen der Datenqualität im Kontext von Big Data zu geben und die Bedeutung der Datenqualitätsdimensionen zu diskutieren. Für diesen Schritt ist es notwendig, Datenqualitätsdimensionen zu definieren, um ein einheitliches Verständnis für den Kontext der Arbeit zu schaffen. Auf dieser Basis sollen anschließend Datenqualitätsdimensionen in der Literatur zu Big Data identifizieren und diskutiert werden. Eine abschließende Bewertung der Ergebnisse ermöglicht es, Ansatzpunkte für weitere Untersuchungen in Bezug auf die Besonderheiten der Datenqualität bei Big Data aufgezeigt. Die Identifizierung und Diskussion relevanter Datenqualitätsdimensionen bei Big Data kann damit einen Beitrag dazu leisten, die Herausforderungen für Datenqualität bei Big Data besser zu verstehen. Des Weiteren können die Ergebnisse als Ansatz dienen, um zu überprüfen, ob aktuelle Datenqualitätsmodelle und -frameworks bei Big Data noch anwendbar sind oder ob neue Ansätze und Konzepte entwickelt werden müssen. 1 Vgl. Wang, Strong (1996), S. 6, Storey, Dewan, Freimer (2012), S. 434 sowie Orr (1998), S. 67. 2 Vgl. Zhu u. a. (2012), S. 1. 3 Vgl. Haug u. a. (2013), S. 234. 4 Vgl. Haug u. a. (2013), S. 234 sowie Storey, Dewan, Freimer (2012), S. 434.

2 1.2 Aufbau der Arbeit Die vorliegende Arbeit gliedert sich in vier Teile. Nachdem in diesem Kapitel zunächst die Problemstellung und Zielsetzung der Arbeit dargestellt wurden, beinhaltet Kapitel 2 zu Beginn die Darstellung grundlegender Eigenschaften von Big-Data-Analysen. Anschließend wird näher auf das Thema Datenqualität eingegangen, was die Definition von Datenqualitätsdimensionen beinhaltet. Kapitel 3 beschäftigt sich mit dem Thema der Herausforderungen für die Datenqualität bei Big Data. Zunächst werden Datenqualitätsprobleme bei Big Data beschrieben. Anschließend werden relevante Datenqualitätsdimensionen in der Big-Data-Literatur identifiziert und nachfolgend deren Besonderheiten diskutiert. Kapitel 4 befasst sich kritisch mit den Ergebnissen der Arbeit und gibt einen Ausblick auf zukünftige Untersuchungsschwerpunkte.

3 2. Grundlagen der Big-Data-Analyse und der Datenqualität 2.1 Analyse von Big Data Der Begriff Big Data wird häufig nur sehr vage abgegrenzt im Kontext der weltweit ansteigenden Datenmenge verwendet. 5 Der Umfang dieser Daten bezieht sich auf ein Volumen im Bereich von Terabytes bis Exabytes (= 1 Mio. Terabyte). 6 Das Ziel von Big-Data-Analysen ist es, unbekannte Muster in diesen Daten zu erkennen und nutzenbringende Informationen abzuleiten, die Organisationen helfen, ihr Kerngeschäft zu unterstützen und die Entscheidungsfindung zu verbessern. 7 Diese Informationsgewinnung wäre nur eingeschränkt bei geringerer Datenmenge möglich. 8 Das hohe Datenvolumen (volume) ist nicht die einzige charakteristische Eigenschaft von Big Data. Eine weitere Eigenschaft bezieht sich Big Data auf die Menge an meist unstrukturierten Daten, die aus einer Vielzahl von Anwendungsszenarien generiert werden. 9 Hierzu zählen beispielsweise Clickstream-Daten von Internetseiten 10, Inhalte sozialer Netzwerke, Video-und Audiodaten sowie Echtzeitinformationen von Sensoren und mobilen Endgeräten. 11 Big-Data-Analysen müssen daher mit einer starken Vielfalt an Daten umgehen (variety). Viele dieser Quellen, wie etwa Facebook und Twitter, sind aufgrund ihrer jungen Unternehmensgeschichte noch relativ neu. 12 Sie können fehlerhafte Daten enthalten, eine hohe Heterogenität aufweisen und in dem Kontext ihrer Verwendung unterschiedliche Ziele verfolgen. 13 Das gesamte Datenvolumen ist hierbei so groß, dass eine effiziente Analyse mit Hilfe traditioneller Technologien wie RDBMS (relationales Datenbankmanagementsystem) oder OLAP (Online Analytical Processing) nicht mehr möglich ist. 14 Sie sind entweder in ihrer Funktionsweise zu beschränkt, um die für die Organisation interessanten Zusammenhänge aufzudecken oder die 5 Vgl. Boyd, Crawford (2012), S. 663 sowie Pospiech, Felden (2012), S. 1. 6 Vgl. Kaisler u. a. (2013), S. sowie Varde u. a. (2012), S. 1. 7 Vgl. Mahrt, Scharkow (2013), S. 22, Huai u. a. (2011), S. 1 sowie Shang u. a. (2013), S. 402. 8 Vgl. Mahrt, Scharkow (2013), S. 22. 9 Vgl. Cuzzocrea u. a. (2011), S. 101. 10 Vgl. hierzu z.b. Chatterjee, Hoffman, Novak (2003), S. 521. 11 Vgl. Davenport, Barth, Bean (2012), S. 44 sowie McAfee, Brynjolfsson (2012), S. 63. 12 Vgl. McAfee, Brynjolfsson (2012), S. 63. 13 Vgl. Agrawal u. a. (2012), S. 2 sowie Boyd, Crawford (2012), S. 670 671. 14 Vgl. Jacobs (2009), S. 39, Mahrt, Scharkow (2013), S. 22 sowie Pospiech, Felden (2012), S. 6.

4 Verarbeitung des Datenvolumens ist nicht mehr mit angemessenem Aufwand möglich. 15 Dieses Verständnis ist eng an die derzeitigen technischen und methodischen Möglichkeiten und Grenzen gebunden. Big Data soll in dieser Arbeit daher als Datenmenge aufgefasst werden, die sich mit bewährten Technologien und Konzepten nicht mehr angemessen handhaben lässt und die neue Entwicklungen von Technologien und Konzepte benötigt. 16 Eine weitere Eigenschaft von Big Data ist die Geschwindigkeit (velocity) der Datengenerierung und verarbeitung. 17 Für viele zeitkritische Anwendungen ist die Geschwindigkeit der Datenverarbeitung und die benötige Zeit bis zum Vorliegen von Analyseergebnissen von hoher Bedeutung. Echtzeitinformationen ermöglichen es Organisation wesentlich flexibler auf Veränderungen im Geschäftsumfeld zu reagieren und Entscheidungen auf fundierten Analyseergebnissen zu treffen. 18 Ein Beispiel ist die Echtzeitanalyse von Verkaufsdaten zur Optimierung von Lagerbeständen. 19 Big-Data-Analysen lassen sich zusammenfassend als Prozess beschreiben, der in Abbildung 2-1 dargestellt wird. Datenerfassung und -beschaffung Datenextraktion und -bereinigung Datenintegration Datenanalyse Dateninterpretation und -nutzung Abb. 2-1: Prozess der Big-Data-Analyse 20 Der Prozess beginnt mit der Datenerfassung bzw. beschaffung aus einer Vielfalt verschiedener Quellsysteme. Nach der Extraktion und Bereinigung (data cleansing) erfolgt die Integration der Daten. Die anschließenden Analysen greifen auf Verfahren aus 15 Vgl. Fisher u. a. (2012), S. 53, Ahuja, Moore (2013), S., Pospiech, Felden (2012), S. 6. 16 Vgl. Jacobs (2009), S. 44 sowie Davenport, Barth, Bean (2012), S. 43. 17 Vgl. Gartner (2011) sowie Kaisler u. a. (2013), S. 996. 18 Vgl. McAfee, Brynjolfsson (2012), S. 63 sowie Russom (2011), S. 11. 19 Vgl. Tankard (2012), S. 5. 20 In Anlehnung an Agrawal u. a. (2012), S. 3, Panahy, Payam, Hassany, Shariat u. a. (2013), S. 4422 sowie Ahuja, Moore (2013), S. 63.

5 Business Intelligence (BI), Data Mining und statistischen Analysen zurückgreifen. 21 Als letzter Schritt steht die Interpretation und Nutzung der Analyseergebnisse. Eine Übersicht über aktuelle Technologien und Frameworks (z.b. Hadoop, MapReduce) für die Speicherung und Verarbeitung von Big Data findet sich bei Ahuja, Moore (2013) und wird im Rahmen dieser Ausarbeitung nicht detaillierter thematisiert. 2.2 Konzept der Datenqualität In der Literatur existieren verschiedene Sichtweisen über die Definition von Datenqualität. 22 Eine allgemein anerkannte Definition von Datenqualität ist fitness for use 23. 24 Das Konzept definiert Datenqualität aus Sicht des Nutzers, der entscheidet, ob die Daten für den intendierten Zweck geeignet sind. 25 Anders formuliert, beschreibt Datenqualität das Ausmaß, in dem die Anforderungen an die Datennutzung erfüllt werden. 26 Damit ist die Datenqualität nicht nur abhängig von der subjektiven Auffassung des Nutzers, sondern auch vom Kontext der Verwendung. 27 Die Datenqualität kann daher nicht unabhängig von den Personen bestimmt werden, welche die Daten verwenden. 28 Datenqualität ist ein multidimensionales Konzept. Dies bedeutet, dass sich die Datenqualität aus Nutzersicht mittels verschiedener Datenqualitätsdimensionen beschreiben lässt. 29 Strong und Lee (1997) kategorisieren 16 Datenqualitätsdimensionen nach intrinsischer (z.b. Fehlerfreiheit, Objektivität), kontextualer (z.b. Relevanz, Aktualität), repräsentationeller Datenqualität (z.b. Verständlichkeit, Konsistenz) und Zugriffsqualität (z.b. Verfügbarkeit, Zugriffssicherheit). 30 Zu denen für den Nutzer am wichtigsten und in der Literatur am häufigsten zitierten zählen Fehlerfreiheit (accuracy), Vollständigkeit 21 Vgl. Hsinchun Chen, Chiang, Storey (2012), S. 1174. 22 Vgl. Haug, Arlbjørn (2011), S. 292. 23 Vgl. Wang, Strong (1996), S. 6. 24 Vgl. Knight (2011), S. 206 sowie Haug u. a. (2013), S. 235 236. 25 Vgl. Wang, Strong (1996), S. 6. 26 Vgl. Yeoh, Wang, Verbitskiy (2012), S. 3. 27 Vgl. Parssian (2006), S. 1495. 28 Vgl. Knight (2011), S. 207. 29 Vgl. Knight (2011), S. 206, Wang, Strong (1996), S. 6 sowie Ballou, Pazer (1985), S. 25. 30 Vgl. Strong, Lee, Wang (1997), S. 104.

6 (completeness), Konsistenz (consistency) und Aktualität (timeliness). 31 Knight (2011) analysierte Frameworks zur Datenqualität und abstrahierte 16 gängige Qualitätsdimensionen, von denen sich neben den oben genannten Dimensionen besonders häufig Zuverlässigkeit (reliabilty), Relevanz (relevancy) und Datenumfang/-tiefe (scope/depth) in den analysierten Modellen Verwendung wiederfinden. 32 Tabelle 2-1 enthält eine Übersicht mit Definition dieser 16 Datenqualitätsdimensionen. Die Bedeutung und Abgrenzung der einzelnen Qualitätsdimensionen ist in der Literatur nicht eindeutig. 33 Gleichzeitig ergibt sich aufgrund der Komplexität von Informationssystemen und der Informationsgewinnung eine große Herausforderung, die Datenqualität zu bewerten. 34 Die Forschung auf diesem Gebiet hat verschiedene Techniken entwickelt, um Datenqualität bewertbar zu machen. Im Kontext von Big Data ist die Bewertbarkeit ebenfalls relevant, da die betrachteten Daten aus einer Vielzahl heterogener Quellen stammen. Die Begriffe Datenqualität und Informationsqualität werden in der Literatur häufig synonym verwendet, wobei Datenqualität eine mehr technische Sicht beschreibt und Informationsqualität eine eher nicht technische Sicht. 35 In dieser Arbeit wird der Begriff Datenqualität verwendet, da sich dieser mehr auf die technischen Probleme bezüglich der Datenqualität bezieht und weniger auf die Nutzung der Daten innerhalb einer Organisation. 31 Vgl. Parssian (2006), S. 1495 zitiert nach Blake, Mangiameli (2011), S. 8:2 sowie Batini u. a. (2009), S. 6 zitiert nach Scannapieco, Catarci (2002), S. 4. 32 Vgl. Knight (2011), S. 216. 33 Vgl. Batini u. a. (2009), S. 6. 34 Vgl. zu diesem und dem folgenden Satz Zhu u. a. (2012), S. 10. 35 Vgl. Zhu u. a. (2012), S. 1 sowie Watts, Shankaranarayanan, Even (2009), S. 202.

7 DQ-Dimension Zuverlässigkeit (reliability) Fehlerfreiheit (accuracy) Aktualität (timeliness) Relevanz (relevancy) Verfügbarkeit (accessibility/availability) Nutzbarkeit (usability) Konsistenz (consistency) Vollständigkeit (completeness) Datenumfang/-tiefe (scope/depth) Objektivität (objectivity) Verständlichkeit (understandability) Sicherheit (security) Mehrwert (value-ddded) Prägnanz (conciseness) Glaubwürdigkeit (believability) Effizienz (efficiency) Definition Grad, zu der eine Information es Wert ist, als Grundlage verwendet zu werden. Grad, zu dem eine Information korrekt oder frei von Fehlern ist. Grad, zu der eine Information aktuell ist, relativ zur betrachteten Aufgabe. Grad, zu dem eine Information verwendbar und hilfreich für die die betrachtete Aufgabe ist. Grad, zu der eine Information leicht durch den Konsumenten abgefragt werden kann; bezieht sich sowohl auf den physikalischen Zugriff (über ein Netzwerk oder Internet) als auch auf kognitiven Zugriff (z.b. einfach zu lesen). Grad, zu dem eine Information einfach zu finden und zu nutzen ist. Grad, zu dem eine Information in einem systematischen, logischen Format dargestellt ist, die kompatibel mit anderen Informationen desselben Ursprungs ist. Grad, zu dem alle nötigen Elemente der benötigten Informationen vorhanden sind. Grad, zu dem die Menge an Informationen aus einer Quelle ausreichend ist. Grad, zu dem eine Information frei von Tendenzen ist oder sich dieser bewusst ist. Grad, zu dem eine Information fähig ist, verstanden und interpretiert zu werden. Grad, zu dem eine Information als sicher betrachtet wird, da der Zugriff durch geeignete Maßnahmen beschränkt ist. Grad, zu dem eine Information einen Mehrwert liefert, da sie besonderes oder einzigartiges Material enthält. Grad, zu dem eine Information in einer kompakten, leicht verständlichen Weise ausgedrückt ist. Grad, zu der eine Information als wahr und glaubwürdig angesehen wird. Grad, zu dem eine Information fähig ist, schnell den Informationsbedürfnissen des Nutzers zu entsprechen. Tab. 2-1: Dimensionen der Datenqualität 36 36 In Anlehnung an Knight (2011), S. 216.

8 3. Herausforderungen für die Datenqualität bei Big Data 3.1 Ursachen von Datenqualitätsproblemen Organisationen müssen mit einer schnell wachsenden Datenmenge umgehen. Gleichzeitig wird es schwieriger, verwertbare Informationen aus dieser Flut an Daten zu extrahieren. Probleme der Datenqualität können häufig Ursache dieser Problematik sein. 37 Für Organisationen ergeben sich neue Herausforderungen bei dem Umgang mit Big Data, um eine hohe Datenqualität sicherzustellen. Eine hohe Datenqualität ermöglicht es den Nutzer innerhalb einer Organisation, die Daten gemäß seiner Analyseziele zu verwenden (fit-for-use). Die Betrachtung von Herausforderungen für die Datenqualität bezieht sich in dieser Ausarbeitung auf die Ursachen von Datenqualitätsproblemen bei Big Data. Hierbei kann zwischen technischen und nicht technischen Ursachen unterschieden werden. 38 Die technischen Ursachen beziehen sich auf die mangelnde Integration und Verarbeitung der Daten, während die nicht technischen Ursachen beispielsweise das Fehlen einer organisationseinheitenübergreifenden Strategie zur bedarfsgerechten Verbreitung der Daten beinhalten. Tabelle 3-1 enthält eine Übersicht über grundlegende, technische Ursachen von Datenqualitätsproblemen bei Big Data, auf die im Folgenden näher eingegangen wird. Ursachen von Datenqualitätsproblemen bei Big Data Datenvolumen Datenheterogenität/ -diversität der Datenquellen Komplexität der Speicherung und Verarbeitung Anspruch an die Datennutzung Tab. 3-1: Ursachen von Datenqualitätsproblemen bei Big Data Erschwert werden die Identifizierung von Datenqualitätsproblemen sowie die Bewertung der Datenqualität durch das große Datenvolumen, das eine effiziente Analyse mit Hilfe traditioneller Technologien 39 nahezu unmöglich macht. 40 Bei diesen Technologien liegen Daten in strukturierter Form vor, die es ermöglicht, die Daten in einem 37 Vgl. Zhu u. a. (2012), S. 1. 38 Vgl. zu diesem und dem folgenden Satz Zhu u. a. (2012), S. 1. 39 Vgl. hierzu auch Abschnitt 2.1. 40 Vgl. Jacobs (2009), S. 39, Mahrt, Scharkow (2013), S. 22 sowie Pospiech, Felden (2012), S. 6.

9 relationalen Schema zu speichern. 41 Da im Kontext von Big Data eine hohe Datenheterogenität bzw. diversität zugrunde liegt, müssen neben strukturierten Daten, die beispielsweise aus relationalen Datenbanktabellen stammen, zunehmend semi-strukturierte und unstrukturierte Daten berücksichtigt werden. 42 Tabelle 3-2 enthält eine Übersicht über die Klassifikation unterschiedlicher Typen von Daten. Zu den unstrukturierten Daten zählen etwa Präsentationen und Emails sowie Kommentare und Sprache. Semistrukturierte Daten (z.b. XML) besitzen eine flexible Struktur, die auch als schemalos oder selbstbeschreibend bezeichnet wird. 43 Klassifikation von Typen von Daten strukturiert semi-strukturiert Unstrukturiert z.b. relationale Tabellen, statistische Daten XML, RSS Feeds PowerPoint Präsentationen, Emails, Textdokumente, Sprache, Kommentare, Sensordaten Tab. 3-2: Klassifikation von Typen von Daten 44 Aufgrund der unterschiedlichen Typen von Daten ergeben sich Probleme hinsichtlich der Gestaltung von Analysen, die mit abnehmender Struktur der Daten ansteigen. 45 Um Big-Data-Analysen durchführen zu können, müssen die Quelldaten in einem Transformationsprozess in ein strukturiertes Format überführt werden. Datenqualitätsprobleme können in unterschiedlichen Phasen von Big-Data-Analysen auftreten. Einerseits kann bereits die Qualität der Ursprungsdaten variieren. Andererseits können Ursachen für Datenqualitätsprobleme auch durch die Integration und Verarbeitung der Daten entstehen. Ein Grund ist, dass komplexe Operationen notwendig sind, um Daten, die aus unterschiedlichen Quellen stammen und die für verschiedene Zwecke erstellt wurden, zu integrieren. 46 Jede Datenquelle besitzt inhärente Anforderungen an die Datenqualität, 41 Vgl. Batini u. a. (2009), S. 9 10. 42 Vgl. zu diesem und dem folgenden Satz Cuzzocrea u. a. (2011), S. 101 sowie Sadiq, Yeganeh, Indulska (2011), S. 1. 43 Vgl. Batini u. a. (2009), S. 9 10. 44 Vgl. zu den Beispielen Batini u. a. (2009), S. 9 10, Sadiq, Yeganeh, Indulska (2011), S. 1 sowie Chaudhuri, Dayal, Narasayya (2011), S. 95. 45 Vgl. zu diesem und dem folgenden Satz Cuzzocrea u. a. (2011), S. 102 sowie Batini u. a. (2009), S. 9 10. 46 Vgl. zu diesem und dem folgenden Satz Yeoh, Wang, Verbitskiy (2012), S. 2.

10 die sich aus dem Kontext ihrer Verwendung ergeben. 47 Beispielsweise kann die Korrektheit und Zuverlässigkeit von selbstverwalteten Profildaten in sozialen Netzwerken stark variieren. 48 Die Überprüfung solcher fehlerhaften Angaben ist eine komplexe Aufgabe. Eine Ursache für Datenqualitätsprobleme liegt daher in der übergreifenden Validierung der Quelldaten. Ferner erfolgt die Datengenerierung oft nicht unter dem Gesichtspunkt einer späteren Datenanalyse, bei der die Datenqualität jedoch eine entscheidende Rolle einnimmt. 49 Probleme können daher bereits in unterschiedlicher Ausprägung bei den Datenquellen vorliegen und sich maßgeblich auf die Qualität der Analyseergebnisse auswirken, falls keine geeignete Maßnahmen zur Identifizierung und Behebung von Datenqualitätsproblemen getroffen werden. Eine weitere Ursache für Probleme bezüglich der Datenqualität ist die erforderliche Verfügbarkeit der Quelldaten in Echtzeit für die Analyse und die sofortige Verfügbarkeit der Analyseergebnisse. Dies kann je nach Anwendungsfall entscheidend für die Analyseziele sein. 50 Das Entdecken eines Kreditkartenbetrugs ist ein Beispiel für die kritische Bedeutung einer schnellen Verfügbarkeit der Analyseergebnisse. Insgesamt stellt die Komplexität der Speicherung und Verarbeitung bei Big Data eine wesentliche Ursache für Datenqualitätsprobleme dar. Die Datenqualität kann nicht nur aufgrund der Heterogenität der Daten variieren, sondern ebenfalls durch die Verarbeitung beeinträchtigt werden. Bei Datenqualitätsproblemen bei Big Data spielt zunehmend die Erwartung der Nutzer an die Qualität der Daten eine Rolle. Das Phänomen Big Data ist häufig mit dem Anspruch verbunden, dass eine gestiegene Datenmenge auch qualitativ hochwertigere und tiefergehende Ergebnisse liefert. 51 Aufgrund der oben beschriebenen Ursachen für Datenqualitätsprobleme ist dies nicht zwingend gewährleistet. 47 Vgl. Yeoh, Wang, Verbitskiy (2012), S. 2. 48 Vgl. zu diesem und dem folgenden Satz Sung-Hyuk Park u. a. (2012), S. 1218. 49 Vgl. Yeoh, Wang, Verbitskiy (2012), S. 2. 50 Vgl. Gartner (2011) sowie Hsinchun Chen, Chiang, Storey (2012), S. 1175. 51 Vgl. Kaisler u. a. (2013), S. 998.

11 3.2 Identifizierung von relevanten Datenqualitätsdimensionen 3.2.1 Konzeption der Untersuchung Datenqualität ist ein multidimensionales Konzept, dass sich anhand verschiedener Datenqualitätsdimensionen beschreiben lässt. Im Abschnitt 2.2 wurden hierzu 16 Datenqualitätsdimensionen definiert, die sich nach Knight (2011) als gängigste Dimensionen in Modellen zur Datenqualität wiederfinden. Auf dieser Grundlage sollen im Folgenden die in der Big-Data-Literatur implizit und explizit genannten Dimensionen identifiziert werden. Dadurch ist es möglich, die Ergebnisse als Ausgangspunkt für die Analyse der Anwendbarkeit von bestehenden Datenqualitätsmodellen bei Big Data zu nutzen. Die Betrachtung von Ursachen für Datenqualitätsprobleme im vorherigen Abschnitt hat gezeigt, dass insbesondere unstrukturierte Daten ein entscheidendes Problem für die Datenqualität bei Big Data darstellen. Aus diesem Grund liegt ein Schwerpunkt dieser Analyse auf dem Einfluss von unstrukturierten Daten auf die Datenqualitätsdimensionen und damit auf die wahrgenommene Datenqualität durch den Nutzer. Zur Ermittlung von Literatur zum Thema Datenqualität bei Big Data wurden die Datenbanken EBSCOhost, ScienceDirect und ProQuest durchsucht. Dabei wurden die Stichworte big data in Kombination mit data quality oder information quality oder data analytics bei der Suche verwendet. Da die Suche lediglich eine geringe Trefferanzahl ergab 52, wurde die Suche erweitert, indem Referenzen und Querverweise hinzugezogen wurden. 3.2.2 Ergebnisse der Untersuchung Insgesamt wurden 15 relevante Quellen identifiziert, die Datenqualität bei Big Data implizit und explizit thematisieren. Die Ergebnisse zeigen, dass sich bisher nicht systematisch mit Datenqualitätsproblemen bei Big Data in der wissenschaftlichen Diskussion beschäftigt wird. 53 Vielmehr werden Themen der Datenqualität häufig im Kontext von Business Intelligence diskutiert. Darüber hinaus war eine differenzierte Betrachtung der Datenqualitätsdimensionen bei Big Data war häufig nicht gegeben. Datenqualitätsdimensionen ließen sich meist nur aus dem Kontext erschließen. Da es im Rahmen dieser Ausarbeitung nicht möglich ist, die Gesamtheit der 16 Dimensionen mit einzubeziehen, 52 Vgl. den Anhang zur Auswertung der Literaturrecherche. 53 Vgl. hierzu auch Agrawal u. a. (2012), S. 2.

Relevanz Zuverlässigkeit Konsistenz Fehlerfreiheit Datenumfang/-tiefe Verfügbarkeit Effizienz Mehrwert Aktualität Verständlichkeit 12 wurde die Anzahl der expliziten oder impliziten Nennungen der Dimensionen als Auswahlkriterium verwendet, wobei jene mit weniger als drei Nennungen aus der Betrachtung ausgeschlossen wurden. Die Ergebnisse der Identifizierung von Datenqualitätsdimensionen in der Big-Data-Literatur sind in Tabelle 3-3 dargestellt. Literatur Ahuja, Moore (2013), S. 62 + + + + + Ahuja, Moore (2013), S. 66 + + + + Al-Debei (2011), S. 154 + + Anstiss (2012), S. 4 + + + Anstiss (2012), S. 5 + + + Batini u. a. (2009), S. 2 + Boyd, Crawford (2012), S. 668,673 + + + Chaudhuri, Dayal, Narasayya (2011), S. 97 + + Cuzzocrea u. a. (2011), S. 102 + + + + Greenberg (2012), S. 47 + + + Işık, Jones, Sidorova (2013), S. 14 + + + Kaisler u. a. (2013), S. 1000 + + + + Kaisler u. a. (2013), S. 998 + + Mahrt, Scharkow (2013), S. 26,28 + + + Storey, Dewan, Freimer (2012), S. 434 + + Strong, Lee, Wang (1997), S. 106 + + Wigan, Clarke (2013), S. 47 + + Zhu u. a. (2012), S. 1,6,10 + + # Anzahl: 8 7 6 6 4 4 4 4 4 3 Tab. 3-3: Identifizierte Datenqualitätsdimensionen in der Big-Data-Literatur

13 3.2.3 Diskussion identifizierter Datenqualitätsdimensionen Im Folgenden wird die Bedeutung der identifizierten Datenqualitätsdimensionen diskutiert. Ziel ist es, die Besonderheiten der Datenqualitätsdimensionen bei Big Data zu konkretisieren. Aufgrund des Umfanges dieser Arbeit wurde sich bei der nachfolgenden Diskussion auf die laut den Ergebnissen der Untersuchung wichtigsten Dimensionen beschränkt. Die Dimensionen Relevanz, Zuverlässigkeit, Konsistenz, Fehlerfreiheit und Datenumfang/-tiefe mit den jeweiligen Besonderheiten bei Big Data werden nun näher beschrieben. Die Dimension Fehlerfreiheit (accuracy) beschreibt den Grad, zu dem die Information korrekt oder frei von Fehlern ist. 54 Bei Big-Data-Analysen wird die Gesamtheit der verfügbaren Datenmenge an strukturierten als auch unstrukturierten Daten mit dem Ziel analysiert, verwertbare Informationen zu extrahieren. Fehler in den Ursprungsdaten können die Qualität des Analyseergebnisses beeinflussen. Diese Fehler können von falsch geschriebenen Wörtern, über Abkürzungen bis hin zu branchenspezifischer Terminologie reichen. 55 Die Überprüfung von Fehlern in unstrukturierten Daten ist komplex. Da bei Big Data ein enormes Volumen an unstrukturierten Daten berücksichtigt werden müssen, ergibt sich das Problem, dass die abgeleiteten Informationen bzw. Resultate der Big-Data-Analysen auf fehlerbehafteten Daten beruhen können. Dies hat zur Folge, dass einerseits die Fehlerfreiheit des Ergebnisses negativ beeinflusst wird. Andererseits hat die Dimension Fehlerfreiheit Einfluss auf die Zuverlässigkeit der Ergebnisse. Hieraus ergibt sich die Notwendigkeit, die Fehlerfreiheit der Quelldaten zu bewerten, sodass bei einer integrierten Betrachtung durch Big-Data-Analysen das Ausmaß und die Bedeutung der Fehler berücksichtigt werden können. Die Frage ist demnach, wie entschieden werden kann, ob Daten korrekt und folglich frei von Fehlern sind. 56 In der Literatur werden Metadaten-Ansätze zur Lösung von Datenqualitätsproblemen bei BI diskutiert. 57 Metadaten sind abstrakte Informationen über Daten, die über den Inhalt der Daten hinausgehen. Sie liefern den Nutzern der Daten zusätzliche 54 Vgl. zu den Definition der Datenqualitätsdimensionen Tabelle 2-1. 55 Vgl. Greenberg (2012), S. 47. 56 Vgl. Ahuja, Moore (2013), S. 66 zitiert nach Kaisler u. a. (2013), S. 998. 57 Vgl. z.b. Yeoh, Wang, Verbitskiy (2012), S. 1.

14 Kontextinformationen. 58 Ein Ansatz zur besseren Bewertbarkeit der Datenqualität ist es daher, Metadaten bei der Analyse zu berücksichtigen, um Resultate besser bewerten zu können. Die Datenqualitätsdimension Relevanz beschreibt den Grad, zu dem eine Information verwendbar und hilfreich für die betrachtete Aufgabe ist. Das Ziel von Big-Data- Analysen ist es, unbekannte Muster und Korrelationen aufzudecken. 59 Da dieses Ziel sehr vage formuliert ist, lässt sich die Einschätzung des Nutzers bei Big Data, ob extrahierte Informationen verwendbar oder hilfreich sind, nur schwer beurteilen. Die Literaturrecherche hat ergeben, dass diese Datenqualitätsdimension häufig mit dem Ziel verknüpft ist, tiefergehende Einblicke und Zusammenhänge in den analysierten Daten zu erhalten 60, um die Entscheidungsfindung zu unterstützen und zu vereinfachen. 61 Die Tatsache, dass unstrukturierte Daten ein hohes Potential besitzen 62, steigert die Erwartung des Nutzers an die Relevanz der extrahierten Informationen. 63 Gleichzeitig werden relevante Zusammenhänge erst ersichtlich, wenn Daten unterschiedlicher Kontexte integriert betrachtet werden. 64 Daher ergibt sich die Notwendigkeit, Daten unterschiedlichen Typs miteinander zu integrieren. Die subjektive Einschätzung eines Nutzers über die Relevanz einzelner Datenquellen kann von der Relevanz der Analyseergebnisse bei einer integrierten Betrachtung abweichen. Wenn beispielsweise die Profilinformationen eines Benutzers in einem sozialen Netzwerk nicht mit den Datensätzen von Transaktionen eines Online-Bezahlsystems verknüpft werden können, ist die Relevanz des Ergebnisses gering, auch wenn die Datenquellen als solche für den Nutzer relevant sein können. Anhand dieses Beispiels wird deutlich, dass die Beurteilung der Relevanz einer Information einerseits von den Erwartungen des Nutzers an das Analyseergebnis und andererseits von der technischen Integration von Datenquellen abhängt. 65 58 Vgl. Watts, Shankaranarayanan, Even (2009), S. 204. 59 Vgl. z.b. Shang u. a. (2013), S. 402. 60 Vgl. Anstiss (2012), S. 4, Ahuja, Moore (2013), S. 62 sowie Zhu u. a. (2012), S. 1. 61 Vgl. Storey, Dewan, Freimer (2012), S. 434 sowie Kaisler u. a. (2013), S. 998. 62 Vgl. Anstiss (2012), S. 1 sowie Boyd, Crawford (2012), S. 662. 63 Vgl. Kaisler u. a. (2013), S. 998. 64 Vgl. Batini u. a. (2009), S. 5 sowie Agrawal u. a. (2012), S. 1. 65 Vgl. Zhu u. a. (2012), S. 1.

15 In diesem Zusammenhang sind die konsistente Repräsentation und logische Aufbereitung der Daten wichtige Aspekte. Dies wird mit der Datenqualitätsdimension Konsistenz (consistency) beschrieben. Ein häufiges Problem unstrukturierter Daten ist, dass regelmäßig unterschiedliche Darstellungen derselben Information vorkommen. 66 Dies umfasst unter anderem Probleme mit Datumsformaten, Abkürzungen oder beispielsweise Wertemengen für die Darstellung des Geschlechts einer Person. 67 Da bei Big Data unstrukturierte Daten zunehmend relevant gewinnen, ist eine steigende Bedeutung dieser Datenqualitätsdimension nachvollziehbar. Der Umfang von Big Data erschweren zunehmend die Überprüfbarkeit und Sicherung einer konsistenten Repräsentation der Analyseergebnisse. Gemessen an der Anzahl des Vorkommens ist die Zuverlässigkeit (reliability) der Informationen eine der wichtigsten Datenqualitätsdimensionen. Sie beschreibt den Grad, zu dem eine Information verlässlich ist. Diese Dimension ist ebenfalls in der Darstellung von Knight (2011) die bedeutendste Dimension. Bei Big Data und insbesondere bei Quellen mit unstrukturierten Daten, ergibt sich die Problematik, dass sie abstrahiert von dem Kontext ihrer Verwendung, an Bedeutung verlieren. 68 Die Zuverlässigkeit von Information, die sich aus Big-Data-Analysen ergeben, hängt folglich davon ab, wie gut der jeweilige Kontext der ursprünglichen Daten bei der Analyse berücksichtigt wurde. Dies hat direkte Auswirkungen auf die Eigenschaft, als Basis für die Entscheidungsunterstützung in Organisationen genutzt zu werden. Die Gewährleistung eines angemessenen Qualitätsniveaus der Daten, ist eine bedeutende, jedoch schwierige Aufgabe für Organisationen. 69 Entscheidend ist, den Kontext der Daten bei Big-Data-Analysen explizit zu berücksichtigen, damit der Verlust an Informationsgehalt möglichst gering ausfällt. Die Bedeutung von Metadaten ist dabei ein kritischer Aspekt. 70 Neben der Zuverlässigkeit der Daten ist die angemessene Datenmenge (volume/depth) aus einer spezifischen Quelle eine wichtige Dimension der Datenqualität bei Big Data. Hierbei stellt sich die Frage, wie viel Daten aus einer Quelle ausreichend sind, um 66 Vgl. Greenberg (2012), S. 47. 67 Vgl. Rohweder u. a. (2011), S. 36. 68 Vgl. Boyd, Crawford (2012), S. 670. 69 Vgl. Storey, Dewan, Freimer (2012), S. 434. 70 Vgl. Yeoh, Wang, Verbitskiy (2012), S. 1 sowie Watts, Shankaranarayanan, Even (2009), S. 204.