Massendaten in der polizeilichen Arbeit
Big Data-Definition die 3 (5) V Big Data-Definition die drei grundlegenden V: Volume = enorme Mengen an Daten, die täglich produziert werden Variety = Vielfalt der Datentypen und -quellen Velocity = die Geschwindigkeit, mit der Daten generiert, ausgewertet und weiterverarbeitet werden können Big Data-Definition zwei entscheidende zusätzliche V: Validity = Sicherstellung der Datenqualität Value = unternehmerischer Mehrwert
Welche drei Begriffe verbinden Sie am stärksten mit Big Data? Quelle: BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie MHP A Porsche Company
Welche BIG-DATA-Technologien kommen zum Einsatz? Quelle: BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie MHP A Porsche Company
Massendaten, Massendaten Genese Woher kommen die Daten technisch gesehen Oracle IBM db2 MS SQL etc. forensische I&K Inhaber Inhaber Rechnung Exportfirma Importeur Rechnung NL - D - missing trader Inhaber? Inhaber buffer company buffer company - D - - D - Rechnung Rechnung USt.-Erstattung USt.-Erstattung DMS Scanning VBS FBS Verbunddateien Forensik Asservate OSINT IoT Industrie 4.0 Finanzamt buffer company - D - USt.-Erstattung Finanzamt z.b. EnCase Analyse Inhaber ERP Index Systeme (MS SP) XML @ E-Mail WWW Applikationen
Massendaten, Massendaten Genese und organisatorisch gesehen Quelle: BKA, nach FBI-Modell
nicht nur speichern, sondern auch bearbeiten verarbeiten erkennen visualisieren Wissen generieren
Arbeitsschritte bei Analysen z.b.: Textkategorisierung und Relevanz-Clustering Suche nach Entitäten und Relationen Exploration von Personennetzwerken und Aufdeckung geplanter Aktivitäten Erkennen und Verstehen von versteckter Semantik Bsp.: Ich gehe jetzt zum Bahnhof und hole meine Oma ab. Du siehst wie Deine Mutter aus. Was bedeutet dieses wirklich? Suche und Sicherung beweiserheblicher Informationen
Analyse strukturierter Daten
Herausforderung Analyse unstrukturierter Daten
Problematiken, z.b.: Fremdsprachen Bund Deutscher Kriminalbeamter Analyse unstrukturierter Daten türkisch, kurdisch, arabisch sind in kommerziellen semantischen Analyse meist nicht vorgesehen derzeit meistens Englisch, Französisch, Italienisch möglich Erkennung von sog. Anaphern (Koreferenzauflösung) In der Satzfolge: Peter ist krank. Er liegt im Bett. Er fühlt sich nicht wohl. Frank ist zu Besuch. er ist eine Anapher; wer ist er (Peter oder Frank?)
Analyse unstrukturierter Daten Wer bzw. was ist gemeint? Der Jaguar steht im Wald. oder oder
Analyse unstrukturierter Daten, derzeit Wortsuche Phrasensuche: "Mit Google kann man Boolesche Operatoren: "und/oder/nicht Umfeldsuche: Wörter oder Phrasen die "n" Wörter voneinander entfernt sind Platzhaltersuche: für einzelne Buchstaben "?" wie Ma?er = Mayer/Maier/Mauer... für beliebig viele Buchstaben "* z.b. innerhalb von SQL-Datenbanktabellen SELECT text FROM tabelle WHERE text LIKE %suchbegriff%'
Analyse unstrukturierter Daten für Analyse unstrukturierter (Massen-)Daten völlig ungeeignet
Analyse unstrukturierter Daten Lösungsansatz: Semantische Analyse von (Text-)Massendaten oder: Wie liest ein Ermittler solche Daten? https://de.fotolia.com/id/38552561
= 1. automatischen Extraktion von sog. Entitäten (bspw. Name, Adresse, KFZ-Kennzeichen) und sowie PIOS-Objekte (Personen, Institutionen, Orte, Sachen) 2. Erkennung der Beziehungen zwischen diesen Objekten 3. Darstellung in einem Wissensnetz (entspr. Domain bzw. Ontologie) Analyse unstrukturierter Daten, z.b.
Analyse unstrukturierter Daten, z.b. echte Informationsextraktion (z.b. regel-/statistik-basierend + Ontologie- Nutzung) Firmen Personen unstrukturierte Daten strukturierte Daten
Wohin geht die (technologische ) Reise?
Wohin geht die (technologische) Reise?
Wohin geht die (technologische) Reise? Wer hat noch den Durchblick? Was ist zukunftsträchtig, in, out? z.b.: Hadoop Data Lakes NoSQL Databases Graph Databases In-Memory Databases Predictive Analytics Streaming analytics Artificial Intelligence Cloud- und Edge-Computing Blockchain
Wohin geht die (technologische) Reise? Gartner Quadrant for Data Integration Tools (08/2017) BI Tools (02/2017)
Hype-Zyklus bei Big Data Bund Deutscher Kriminalbeamter Wohin geht die (technologische) Reise? Quelle: BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie MHP A Porsche Company
Zusammenfassung (Versuch einer )
Massendaten Fluch oder Segen für die Polizeiarbeit? neue Datenquellen: mobile devices, embedded systems, Car IT, IoT massive dynamische Datenströme in Netzen nur noch Echtzeiterfassung und live-forensik (nicht post mortem) vermehrt online storages für Datenhaltung (z.b. box.net, dropbox usw) Cloud-Forensik!!! Verschlüsselung der Datenströme und Datenhaltungen riesige Datenmengen (Festplatten mit 8, 14 TB); Verschlüsselung (teilw. oder ganz)
Massendaten Fluch oder Segen für die Polizeiarbeit? Problematik Datenqualität Technologien: sehr hohes Innovationstempo Cloud skalierbare Leistungen, flexible Performance, geringe Servicekosten versus Unsicherheit in Bezug auf Datensicherheit und Datenschutz
Massendaten Fluch oder Segen für die Polizeiarbeit? Zeitfrage für Untersuchungen (nicht unbegrenzt im Verfahren) plus fehlende Fachkräfte in Polizei Überhang an nicht ausgewerteten Asservaten Möglicher Ansatz??? Nicht die Nadel im Heuhaufen suchen sondern das Heu um die Nadel herum intelligent entfernen Denn: Wer oder Was ist überhaupt die Nadel?
auch hier auf dem EPK 2018 --> Stand 30/31 Ronald Schulze Bund Deutscher Kriminalbeamter Poststraße 4-5 10178 Berlin www.bdk.de ronald.schulze@bdk.de Telefon: +49 (30) 24630450 Telefax: +49 (30) 246304529