BigData Wie wichtig ist die qualität bei der Analyse und Auswertung von großen Praxisbeispiel Christin Otto
Was ist Big Data? Der Big Data Prozess Sammlung und Speicherung von Analyse der zum Gewinn von Informationen Anwendung der Informationen zum Fällen von Entscheidungen 2
Was ist Big Data? Der Big Data Prozess Sammlung und Speicherung von Analyse der zum Gewinn von Informationen Anwendung der Informationen zum Fällen von Entscheidungen Big Data Dimensionen Masse Vielfalt Geschwindigkeit Sehr viele in unterschiedlichen Formaten die sich schnell vervielfältigen. 3
Was ist Big Data? Der Big Data Prozess Sammlung und Speicherung von Analyse der zum Gewinn von Informationen Anwendung der Informationen zum Fällen von Entscheidungen Big Data Dimensionen Masse Vielfalt Geschwindigkeit Sehr viele in unterschiedlichen Formaten die sich schnell vervielfältigen qualität jedoch trotzdem korrekt sein sollen. 4
Was ist Big Data? Der Big Data Prozess Sammlung und Speicherung von Analyse der zum Gewinn von Informationen Anwendung der Informationen zum Fällen von Entscheidungen Big Data Dimensionen Masse Vielfalt Geschwindigkeit Sehr viele in unterschiedlichen Formaten die sich schnell vervielfältigen qualität Bleibt häufig auf der Strecke jedoch trotzdem korrekt sein sollen. 5
Was ist Big Data? Der Big Data Prozess Sammlung und Speicherung von Analyse der zum Gewinn von Informationen Anwendung der Informationen zum Fällen von Entscheidungen Big Data Dimensionen Masse Vielfalt Geschwindigkeit Sehr viele in unterschiedlichen Formaten die sich schnell vervielfältigen qualität Bleibt häufig auf der Strecke jedoch trotzdem korrekt sein sollen. 6
Was ist Big Data? Der Big Data Prozess Sammlung und Speicherung von Analyse der zum Gewinn von Informationen Anwendung der Informationen zum Fällen von Entscheidungen Big Data Dimensionen Masse Vielfalt Geschwindigkeit Sehr viele in unterschiedlichen Formaten die sich schnell vervielfältigen qualität Bleibt häufig auf der Strecke jedoch trotzdem korrekt sein sollen. 7
Was ist Big Data? Der Big Data Prozess Sammlung und Speicherung von Analyse der zum Gewinn von Informationen Anwendung der Informationen zum Fällen von Entscheidungen Big Data Dimensionen Masse Vielfalt Geschwindigkeit Sehr viele in unterschiedlichen Formaten die sich schnell vervielfältigen qualität Bleibt häufig auf der Strecke jedoch trotzdem korrekt sein sollen. 8
Was ist Big Data? Der Big Data Prozess Sammlung und Speicherung von Analyse der zum Gewinn von Informationen Anwendung der Informationen zum Fällen von Entscheidungen Big Data Dimensionen Masse Vielfalt Geschwindigkeit Sehr viele in unterschiedlichen Formaten die sich schnell vervielfältigen qualität Bleibt häufig auf der Strecke jedoch trotzdem korrekt sein sollen. 9
Was ist Big Data? Der Big Data Prozess Sammlung und Speicherung von Analyse der zum Gewinn von Informationen Anwendung der Informationen zum Fällen von Entscheidungen Big Data Dimensionen Masse Vielfalt Geschwindigkeit Sehr viele in unterschiedlichen Formaten die sich schnell vervielfältigen qualität Bleibt häufig auf der Strecke jedoch trotzdem korrekt sein sollen. 10
Was ist Big Data? Der Big Data Prozess Sammlung und Speicherung von Analyse der zum Gewinn von Informationen Anwendung der Informationen zum Fällen von Entscheidungen Big Data Dimensionen Masse Vielfalt Geschwindigkeit Sehr viele in unterschiedlichen Formaten die sich schnell vervielfältigen qualität Klappt das so einfach? jedoch trotzdem korrekt sein sollen. 11
Die flut Was ist eigentlich viel? Every two days now we create as much information as we did from the dawn of civilization up until 2003. Eric Schmidt 2010 12
13
Was nicht passieren sollte 14
Praxisbeispiel Wirtschaftskriminalität Zeitnahe Analyse Großer zeitraum Compliance Management Laufende Kontrolle der entstehenden mengen auf Unregelmäßigkeiten und Verstöße Forensische analyse Analyse der in der Vergangenheit entstandenen mengen nach Bekanntwerden wirtschaftskrimineller Handlungen Aktuelle Aufdecken wirtschaftskrimineller Handlungen Strukturierte und unstrukturierte Nachweis der wirtschaftskriminellen Handlungen Vermeiden größerer Schäden Valide Analyse der Handlungsmuster zum Beheben der Schwachstellen Relevante 15
Bundeslagebild Wirtschaftskriminalität 2013 16
Statistiken des Bundeskartellamts 17
Guidelines EU-Kartellverfahren Anforderung: Vollständige, korrekte und pünktliche Lieferung der Warum werden im Kartellverfahren angefragt? Sammlung quantitativer Informationen Preise, Umsatz, Kapazitäten Markteintritts- und Marktaustrittsentscheidungen Wozu werden diese Informationen verwendet? Darstellung der Marktsituation und der Wettbewerbsdynamiken im kartellrelevanten Zeitraum Grundlage für statistische Analysen Welche werden angefragt? zu Kosten, Aufträgen, Preisen, Absatz, Kapazitäten, Produkteigenschaften, Lieferungen, Kundeneigenschaften, Details zu Ausschreibungen und Angeboten, Geschäftsstrategien, Konkurrenten Welche quellen dürfen verwendet werden? Unternehmensinterne und von dritten Beteiligten aus der Fachpresse von unabhängigen Beratern/Gutachtern oder Studien 18
Guidelines EU-Kartellverfahren Probleme Wo finden sich die jeweils geforderten? Welche Systeme? Strukturierte/unstrukturierte? Trennung der relevanten von nicht relevanten? Wie können die extrahiert werden? mengen? Systeme (SAP- und weitere)? Verwendbare Formate Speicherung und Kapazitäten SOLLTE eigentlich jedes Unternehmen liefern können!!! Ist aber nicht der Fall: qualität Sind die tatsächlich vollständig und korrekt? Welche wurden genau wann, wie und wo erzeugt? Werden alle aufgezeichnet? Wo gibt es womöglich Lücken? 19
Beispiel: Vorgehen bei der Kartellanalyse Eingrenzung Einstieg mit eines Geschäftsjahrs Ausschließlich zu Verkäufen an deutsche Kunden Besonderheit: Unterscheidung in neues und gebrauchtes Material Kartellrelevanz Vorgabe und Differenzierung kartellrelevanter Produktgruppen Vorgabe konkret nicht kartellrelevanter Produktgruppen Ein Delta ist immer vorhanden Zuordnung Zuordnung der Produktpalette zur jeweiligen Produktgruppe (Basis: Artikeltext) SCHWIERIG! Knackpunkt qualität! Aufbau eines Thesaurus zur Beschreibung jeder Produktgruppe in ihrer Vielfalt Ziel Einordnung der in Fallklassen Verringerung der menge Erleichterung der Untersuchungsarbeit 20
Schwierigkeit: Zuordnung der Produktgruppen Semantische und syntaktische Ähnlichkeit Artikellisten, Handbücher Zuordnung der Produktgruppen mithilfe des Thesaurus Abkürzungen Phasenweise Erweiterung des Thesaurus Analyse der nicht zugeordneten Artikel Thesaurus Ergebnis: - menge zur weiteren Analyse je kartellrelevanter Produktgruppe - Thesaurus zur Anwendung auf weitere im kartellrelevanten Zeitraum 21
Vielen Dank für Ihre Aufmerksamkeit 22