BIG DATA Die Bewältigung riesiger Datenmengen Peter Mandl Institut für Geographie und Regionalforschung der AAU GIS Day 2012, 13.11.2012, Klagenfurt
Was sind BIG DATA? Enorm große Datenmengen, Datenflut (Data Deluge) von Sensoren etc. gemessen, durch Computerprogramme oder den Menschen erzeugt strukturiert (Zahlen, Tabellen) oder unstrukturiert (Bilder, Videos, Texte, Websites) Uns interessieren besonders BIG Geo-DATA
Geodaten Daten + Semantik Zeichen + Syntax Wissen + Pragmatik GI - Dienste Information Geoinformation wenn interoperabel, dann Geodateninfrastruktur eines Landes bzw. zu einem Thema
Big (Geo-)Data bis heute Bücher (I & W) Karten (D & I) Statistische Daten (D) Fernerkundungsdaten (D & I) Messwerte (D & I) Geodateninfrastrukturen (D & I) GeoWeb (D, I & W)
Big (Geo-)Data heute (digital) Literaturdatenbanken Medienbanken (Bilder, Filme, Videos, Musik) Aktien-, Gen-, Geodatenbanken etc. Kommunikationsdaten und -metadaten personenbezogene Daten (Krankenakte, Einkaufskarten, Soziale Netzwerke) Meist mit Raumbezug (Lageinformation, Adresse, Geotag), Zeitbezug und Vernetzung
Heute vier wissenschaftliche Paradigmen 1. Empirische Wissenschaft: Beschreibung natürlicher Phänomene (vor 1.000en Jahren) 2. Theoretische Wiss.: Modelle, Generalisierungen (vor einigen 100en Jahren) 3. Computational Wiss.: Simulation komplexer Phänomene (vor einige Jahrzehnten) 4. Daten-intensive Wiss. (e-science): Verbindung von Theorie, Experiment und Simulation Daten (automatisch) aufgenommen ODER durch Simulation generiert mit Programmen verarbeitet Information/Wissen im Computer gespeichert Wissenschaftler analysieren Datenbasen durch Datenmanagement und Statistik
Jim Gray, Alex Szalay, escience A Transformed Scientific Method, Presentation to the Computer Science and Technology Board of the National Research Council, Mountain View, CA, 11 January 2007; see http://research.microsoft.com/en-us/um/people/gray/talks/nrc-cstb_escience.ppt.
Probleme Krzysztof Janowicz, UCSB nennt die drei Vs von BIG DATA: Volume: Größe, Multidimensionalität, Vernetztheit der Daten Wie und womit sollen diese Datenmengen verarbeitet (Soft-und Hardware)? Variety: Quellen und Typen der Daten Erlaubt holistischere Analysen aber stellt neue Fragen der Datenintegration und harmonisierung. Velocity: Geschwindigkeit mit der Daten erzeugt und aktualisiert werden (Echtzeitdaten) Wie soll aggregiert und gespeichert werden?
FuturICT http://www.futurict.eu FuturICT FET Flagschiff Projekt Ziel: Living Earth Platform, eine Simulations-, Visualisierungsund Partizipationsplattform um Entscheidungsfindung von Politikern, Wirtschaftstreibenden und Bürgern zu unterstützen.
Location Analytics Visual Analytics Data Mining Methoden aus der multivariaten quantitativen Geography locational analysis Space/Time Analysis (Earth Trends Modeller)
Cloud Computing Daten aus dem Netz Software als Dienst Server in der Cloud Mobile Services aus der Cloud
Digital Earth Rede von Al Gore Internationale Gemeinschaft: Zeitschrift, Digital Earth Summit, Society In Virtual Globe Geobrowsern umgesetzt SDI, Sensor Networks, VGI Google in Maps
Zukunftsperspektiven Bessere Einsichten durch ein virtuelles, verteiltes, die ganze Erde umspannendes Makroskop, andere Sensornetzwerke Interoperabilität der Daten, Modelle und Methoden, Data Mining Integration der Ergebnisse und des Wissens, auch VGI (Qualität)
Herzlichen Dank für Ihre Aufmerksamkeit! Fragen und Anregungen bitte an: peter.mandl@aau.at Informationen unter: http://aau.at/geo/