2.3.2 Toujours 2.3.2

Toujours sur les grandes données permet l'étude des événements inattendus et mesure en temps réel.

De nombreux grands systèmes de données sont toujours sur; ils sont constamment recueillent des données. Cette caractéristique toujours sur fournit aux chercheurs des données longitudinales (c.-à-données au fil du temps). Être toujours sur a deux conséquences importantes pour la recherche.

Premièrement, la collecte de données permanente permet aux chercheurs d'étudier des événements inattendus d'une manière qui ne serait pas possible autrement. Par exemple, les chercheurs intéressés à étudier les manifestations d'Occupy Gezi en Turquie à l'été 2013 se concentreraient généralement sur le comportement des manifestants pendant l'événement. Ceren Budak et Duncan Watts (2015) ont pu faire plus en utilisant la nature toujours présente de Twitter pour étudier les manifestants qui ont utilisé Twitter avant, pendant et après l'événement. Et, ils ont été en mesure de créer un groupe de comparaison de non-participants avant, pendant et après l'événement (figure 2.2). Au total, leur panel ex-post a inclus les tweets de 30 000 personnes sur deux ans. En augmentant les données communément utilisées dans les manifestations avec ces autres informations, Budak et Watts ont pu en apprendre beaucoup plus: ils ont été en mesure d'estimer quels types de personnes étaient plus susceptibles de participer aux manifestations de Gezi et d'estimer les changements d'attitudes de participants et non-participants, à la fois à court terme (comparant les pré-Gezi à Gezi) et à long terme (comparant les pré-Gezi aux post-Gezi).

Figure 2.2: Conception utilisée par Budak et Watts (2015) pour étudier les manifestations d'Occupy Gezi en Turquie à l'été 2013. En utilisant la nature permanente de Twitter, les chercheurs ont créé ce qu'ils ont appelé un panel ex-post qui comprenait environ 30 000 personnes sur deux ans. Contrairement à une étude typique centrée sur les participants pendant les manifestations, le panel ex-post ajoute 1) les données des participants avant et après l'événement et 2) les données des non-participants avant, pendant et après l'événement. Cette structure de données enrichie a permis à Budak et Watts d'estimer les types de personnes les plus susceptibles de participer aux manifestations de Gezi et d'estimer les changements d'attitudes des participants et des non-participants, à court terme (comparaison avec Gezi avant Gezi). ) et à long terme (comparaison de pré-Gezi avec post-Gezi).

Figure 2.2: Conception utilisée par Budak and Watts (2015) pour étudier les manifestations d'Occupy Gezi en Turquie à l'été 2013. En utilisant la nature permanente de Twitter, les chercheurs ont créé ce qu'ils ont appelé un panel ex-post qui comprenait environ 30 000 personnes sur deux ans. Contrairement à une étude typique centrée sur les participants pendant les manifestations, le panel ex-post ajoute 1) les données des participants avant et après l'événement et 2) les données des non-participants avant, pendant et après l'événement. Cette structure de données enrichie a permis à Budak et Watts d'estimer les types de personnes les plus susceptibles de participer aux manifestations de Gezi et d'estimer les changements d'attitudes des participants et des non-participants, à court terme (comparaison avec Gezi avant Gezi). ) et à long terme (comparaison de pré-Gezi avec post-Gezi).

Un sceptique pourrait faire remarquer que certaines de ces estimations auraient pu être faites sans toujours-sur des sources de collecte de données (par exemple, des estimations à long terme de changement d'attitude), et c'est correct, bien qu'une telle collecte de données pour 30 000 personnes aurait été coûteux. Cependant, même avec un budget illimité, je ne peux penser à aucune autre méthode qui permettrait essentiellement aux chercheurs de remonter dans le temps et d'observer directement le comportement des participants dans le passé. L'alternative la plus proche consisterait à collecter des rapports rétrospectifs de comportement, mais ces rapports présenteraient une granularité limitée et une précision discutable. Le tableau 2.1 fournit d'autres exemples d'études qui utilisent une source de données permanente pour étudier un événement inattendu.

Tableau 2.1: Études d'événements inattendus utilisant des sources de données volumineuses en permanence.
Événement imprévu Source de données toujours active Citation
Occuper le mouvement Gezi en Turquie Gazouillement Budak and Watts (2015)
Protestations de parapluie à Hong Kong Weibo Zhang (2016)
Fusillades de la police à New York Arrêter et fouiller les rapports Legewie (2016)
Personne rejoignant ISIS Gazouillement Magdy, Darwish, and Weber (2016)
Attaque du 11 septembre 2001 livejournal.com Cohn, Mehl, and Pennebaker (2004)
Attaque du 11 septembre 2001 messages de téléavertisseur Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

En plus d'étudier des événements inattendus, les systèmes de données volumineuses permettent également aux chercheurs de produire des estimations en temps réel, ce qui peut être important dans les contextes où les décideurs - au gouvernement ou dans l'industrie - veulent réagir en fonction de la situation. Par exemple, les données des médias sociaux peuvent être utilisées pour orienter les interventions d'urgence en cas de catastrophes naturelles (Castillo 2016) et diverses sources de données volumineuses peuvent être utilisées pour produire des estimations en temps réel de l'activité économique (Choi and Varian 2012) .

En conclusion, les systèmes de données en continu permettent aux chercheurs d'étudier des événements inattendus et de fournir des informations en temps réel aux décideurs. Cependant, je ne pense pas que les systèmes de données en continu soient bien adaptés pour suivre les changements sur de très longues périodes. C'est parce que beaucoup de grands systèmes de données changent constamment - un processus que j'appellerai drift plus tard dans le chapitre (section 2.3.7).