Jakob Jünger, M.A. Till Keyling, M.A. Facepager. Ein Programm zur automatisierten Datenerhebung im Netz

Jakob Jünger, M.A. Till Keyling, M.A. Ein Programm zur automatisierten Datenerhebung im Netz

Agenda 1. Grundlagen der automatisierten Datenerhebung 2. Überblick über den 3. Fallstricke automatisierter Datenerhebung 9.11.2013 2

Erhebung von Daten im Web Server Client Webseite Browser REST-API Erhebungstool 9.11.2013 3

Erhebung von Daten im Web https:// graph.facebook.com/ Tatort? access_token=xxx https:// www.facebook.com/ Tatort 9.11.2013 4

Hintergrund 2011: Entstehung an der LMU München als Tools zur Speicherung von Facebook-Seiten Seit 2012: Gemeinsame Kooperation Aktuell >200.000 API Zugriffe, 60 Nutzer aus 5 Ländern (Facebook API) Open-Source-Projekt auf GitHub: https://github.com/strohne/ Presets und Installationsdateien (Mac OS, Windows): http://www.ls1.ifkw.uni-muenchen.de/personen/wiss_ma/keyling_till/software.html 9.11.2013 5

- Übersicht Datensätze Details eines Datensatzes Abfragebereich Statusmeldungen des Programms Festlegen von Spalten 9.11.2013 6

Workflow 9.11.2013 7

Workflow 9.11.2013 10

Workflow 9.11.2013 11

Funktionen API-Module: Facebook, Twitter, Generic, Abfrageparameter frei einstellbar Presets zur Dokumentation und zum Austausch von Erhebungsdesigns Sukzessive (hierarchische) Abfrage, Abfrage paginierter Ergebnisse Einfacher Timer Anzeige der Daten anpassbar Exportieren als CSV-Datei oder über die Zwischenablage 9.11.2013 12

Anforderungen an Tools zur Datenerhebung Abstraktion: Unterschiedliche APIs Kontrolle: Steuerbarkeit jeder Abfrage Transparenz: Offenlegung des Codes Standardisierung: Universelle Exportformate Spezialisierung: Trennung von Datenerhebung & Auswertung. 9.11.2013 13

Selektionsschritte im Prozess der Datengenerierung Forscher Tools API Scraping Rohdaten Ausgewählte Probleme: Vollständigkeit von Daten Validität von Indikatoren Transparenz von APIs Code/Affordances Meaning /Welt. 9.11.2013 14

Vollständigkeit der Daten Repräsentation über API unterscheidet sich von Repräsentation im Web 366 von 570 Kommentaren abrufbar Fehlt Request Status Error: Bad Request 9.11.2013 15

Validität von Aktivitätsmessungen Mehr als 10 Posts pro Tag......eingespeist über RSS Graffiti...hauptsächlich Artikel aus der Frankfurter Neuen Presse. 9.11.2013 16

Transparenz der APIs Veränderte Berechnungsgrundlagen von Parametern YouTube: Channel-Parameter Total Upload Views Mangelnde Dokumentation API-Versionssprünge 9.11.2013 17

Fazit Automatisierte Datenerhebung erleichtert aufwändige Erhebungsarbeit Leitprinzipien bei der Entwicklung: Abstraktion, Kontrolle, Transparenz, Standardisierung, Spezialisierung Automatisierte Datenerhebung garantiert nicht gute Forschung Verführerische Verfügbarkeit: Daten sprechen nicht für sich! Verführerische Einfachheit: Dokumentationen lesen! 9.11.2013 18

Vielen Dank für Ihre Aufmerksamkeit! 9.11.2013 19

Literatur Bruns, A. (2013). Faster than the speed of print: Reconciling big data social media analysis and academic scholarship. First Monday, 18(10). Abgerufen von http://firstmonday.org/ojs/index.php/fm/article/view/4879 De Choudhury, M., Lin, Y. R., Sundaram, H., Candan, K. S., Xie, L., & Kelliher, A. (2010). How does the data sampling strategy impact the discovery of information diffusion in social media. In Proceedings of the 4th International AAAI Conference on Weblogs and Social Media (S. 34 41). Abgerufen von http://www.aaai.org/ocs/index.php/icwsm/icwsm10/paper/viewfile/1521/1832 Gehrau / Fretwurst / Krause (2005) (Hrsg.) Auswahlverfahren in der Kommunikationswissenschaft. Köln: Herbert von Halem Verlag. Gerlitz, C., & Rieder, B. (2013). Mining One Percent of Twitter: Collections, Baselines, Sampling. M/C Journal, 16(2). Abgerufen von http://journal.mediaculture.org.au/index.php/mcjournal/article/view/620 Giglietto, F., Rossi, L., & Bennato, D. (2012). The Open Laboratory: Limits and Possibilities of Using Facebook, Twitter, and YouTube as a Research Data Source. Journal of Technology in Human Services, 30(3-4), 145 159. doi:10.1080/15228835.2012.743797 González-Bailón, S., Wang, N., Rivero, A., Borge-Holthoefer, J., & Moreno, Y. (2012). Assessing the bias in communication networks sampled from twitter. Available at SSRN 2185134. Abgerufen von http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2185134 Mahrt, M., & Scharkow, M. (2013). The Value of Big Data in Digital Media Research. Journal of Broadcasting & Electronic Media, 57(1), 20 33. doi:10.1080/08838151.2012.761700 Morstatter, F., Pfeffer, J., Liu, H., & Carley, K. M. (2013). Is the sample good enough? comparing data from twitter s streaming api with twitter s firehose. Proceedings of ICWSM. Abgerufen von http://www.public.asu.edu/~fmorstat/paperpdfs/icwsm2013.pdf Seibold, B. (2002). Die flüchtigen Web-Informationen einfangen. Publizistik, 47(1), 45 56. doi:10.1007/s11616-002-0003-3 Vis, F. (2013). A critical reflection on Big Data: Considering APIs, researchers and tools as data makers. First Monday, 18(10). doi:10.5210/fm.v18i10.4878 Welker, M., & Wünsch, C. (Hrsg.). (2010). Die Online-Inhaltsanalyse: Forschungsobjekt Internet. Köln: Halem. 9.11.2013 20