2.3.2 Altijd aan

Always-on big data maakt de studie van onverwachte gebeurtenissen en real-time meting.

Veel grote datasystemen zijn always-on; ze voortdurend verzamelen van gegevens. Dit always-on karakteristieke biedt onderzoekers met longitudinale gegevens (dat wil zeggen, gegevens in de tijd). Omdat het always-on heeft twee belangrijke implicaties voor onderzoek.

Ten eerste stelt de altijd beschikbare gegevensverzameling onderzoekers in staat om onverwachte gebeurtenissen te bestuderen op manieren die anders niet mogelijk zouden zijn. Onderzoekers die bijvoorbeeld geïnteresseerd zijn in het bestuderen van de Occupy Gezi-protesten in Turkije in de zomer van 2013, richten zich doorgaans op het gedrag van demonstranten tijdens het evenement. Ceren Budak en Duncan Watts (2015) waren in staat om meer te doen door de altijd aanwezige aard van Twitter te gebruiken om protestanten te bestuderen die Twitter gebruikten voor, tijdens en na het evenement. En ze waren in staat om een ​​vergelijkingsgroep van niet-deelnemers vóór, tijdens en na het evenement te creëren (figuur 2.2). In totaal omvatte hun ex-post panel de tweets van 30.000 mensen over een periode van twee jaar. Door de veelgebruikte gegevens uit de protesten met deze andere informatie te vergroten, konden Budak en Watts veel meer leren: ze konden inschatten welke soorten mensen eerder aan de Gezi-protesten deelnamen en de veranderingen in attitudes van deelnemers en niet-deelnemers, zowel op korte termijn (vergelijking van pre-Gezi tot tijdens Gezi) als op de lange termijn (vergelijking van pre-Gezi met post-Gezi).

Figuur 2.2: Ontwerp gebruikt door Budak en Watts (2015) om de Occupy Gezi-protesten in Turkije te bestuderen in de zomer van 2013. Door gebruik te maken van de altijd aanwezige aard van Twitter creëerden de onderzoekers wat zij een ex-post panel noemden dat ongeveer 30.000 mensen ouder dan twee jaar. In tegenstelling tot een typische studie die zich richtte op deelnemers tijdens de protesten, voegt het ex-postpaneel 1) gegevens toe van deelnemers vóór en na het evenement en 2) gegevens van niet-deelnemers vóór, tijdens en na het evenement. Deze verrijkte datastructuur stelde Budak en Watts in staat te schatten welke soorten mensen eerder aan de Gezi-protesten deelnamen en de veranderingen in attitudes van deelnemers en niet-deelnemers te schatten, zowel op korte termijn (vergelijking van pre-Gezi met tijdens Gezi ) en op de lange termijn (vergelijking van pre-Gezi met post-Gezi).

Figuur 2.2: Ontwerp gebruikt door Budak and Watts (2015) om de Occupy Gezi-protesten in Turkije te bestuderen in de zomer van 2013. Door gebruik te maken van de altijd aanwezige aard van Twitter creëerden de onderzoekers wat zij een ex-post panel noemden dat ongeveer 30.000 mensen ouder dan twee jaar. In tegenstelling tot een typische studie die zich richtte op deelnemers tijdens de protesten, voegt het ex-postpaneel 1) gegevens toe van deelnemers vóór en na het evenement en 2) gegevens van niet-deelnemers vóór, tijdens en na het evenement. Deze verrijkte datastructuur stelde Budak en Watts in staat te schatten welke soorten mensen eerder aan de Gezi-protesten deelnamen en de veranderingen in attitudes van deelnemers en niet-deelnemers te schatten, zowel op korte termijn (vergelijking van pre-Gezi met tijdens Gezi ) en op de lange termijn (vergelijking van pre-Gezi met post-Gezi).

Een scepticus zou erop kunnen wijzen dat sommige van deze schattingen gemaakt zouden kunnen zijn zonder bronnen van constante gegevensverzameling (bijv. Langetermijnramingen van attitudeverandering), en dat klopt, hoewel zo'n gegevensverzameling voor 30.000 mensen behoorlijk zou zijn geweest duur. Zelfs met een onbeperkt budget kan ik echter geen andere methode bedenken die onderzoekers in staat stelt om terug te reizen in de tijd en het gedrag van deelnemers in het verleden direct te observeren. Het beste alternatief zou zijn om retrospectieve meldingen van gedrag te verzamelen, maar deze rapporten zouden een beperkte gedetailleerdheid en twijfelachtige nauwkeurigheid hebben. tabel 2.1 geeft andere voorbeelden van onderzoeken waarbij een altijd beschikbare gegevensbron wordt gebruikt om een ​​onverwachte gebeurtenis te bestuderen.

Tabel 2.1: Onderzoek naar onverwachte gebeurtenissen met behulp van altijd beschikbare big data-bronnen.
Onverwachte gebeurtenis Altijd beschikbare gegevensbron Citaat
Occupy Gezi-beweging in Turkije tjilpen Budak and Watts (2015)
Parapluprotesten in Hong Kong Weibo Zhang (2016)
Opnamen van politie in New York City Stop-en-frisk-rapporten Legewie (2016)
Persoon bij ISIS tjilpen Magdy, Darwish, and Weber (2016)
11 september 2001 aanval livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 september 2001 aanval pager-berichten Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Naast het bestuderen van onverwachte gebeurtenissen, stellen always-on big data-systemen onderzoekers ook in staat om real-time schattingen te maken, wat belangrijk kan zijn in omgevingen waar beleidsmakers - in overheid of industrie - willen reageren op basis van situationeel bewustzijn. Sociale mediadata kunnen bijvoorbeeld worden gebruikt om de reactie op noodsituaties bij natuurrampen te begeleiden (Castillo 2016) en een groot aantal verschillende big data-bronnen kunnen worden gebruikt om realtime schattingen van de economische activiteit te maken (Choi and Varian 2012) .

Concluderend: door permanente gegevenssystemen kunnen onderzoekers onverwachte gebeurtenissen bestuderen en realtime informatie aan beleidsmakers verstrekken. Ik denk echter niet dat altijd beschikbare datasystemen goed geschikt zijn om veranderingen over een lange periode te volgen. Dat komt omdat veel grote datasystemen constant veranderen-een proces dat Ik bel drift later in het hoofdstuk (paragraaf 2.3.7).