2.3.9 Maħmuġa

Sorsi ta 'data kbar jistgħu jiġu mgħobbija bil junk u spam.

Xi riċerkaturi jemmnu li sorsi ta 'dejta kbar, speċjalment sorsi onlajn, huma veri minħabba li jinġabru awtomatikament. Fil-fatt, in-nies li ħadmu b'sorsi ta 'data kbar jafu li huma ta' spiss maħmuġin . Jiġifieri, spiss jinkludu data li ma tirriflettix azzjonijiet reali ta 'interess għar-riċerkaturi. Ħafna xjenzati soċjali diġà huma familjari mal-proċess tat-tindif tad-dejta tal-istħarriġ soċjali fuq skala kbira, iżda t-tindif ta 'sorsi kbar ta' dejta jidher li huwa aktar diffiċli. Naħseb li s-sors aħħari ta 'din id-diffikultà huwa li ħafna minn dawn is-sorsi ta' dejta kbar qatt ma kienu maħsuba biex jintużaw għar-riċerka, u għalhekk mhumiex miġbura, maħżuna u dokumentati b'mod li jiffaċilita t-tindif tad-data.

Il-perikli ta 'data traċċa diġitali maħmuġa huma illustrati mill-istudju ta' wara u tal-kollegi (2010) dwar ir-reazzjoni emozzjonali għall-attakki tal-11 ta 'Settembru, 2001 li semmejt fil-qosor fil-kapitolu. Ir-riċerkaturi tipikament jistudjaw ir-rispons għal avvenimenti traġiċi li jużaw data retrospettiva miġbura matul xhur jew saħansitra snin. Imma, Lura u l-kollegi sabu sors kontinwu ta 'traċċi diġitali-timestamped, messaġġi rrekordjati awtomatikament minn 85,000 pager Amerikani - u dan ippermettahom jistudjaw ir-rispons emozzjonali fi skala ta' żmien ferm aktar mgħaġġla. Huma ħolqu minuta kalendarja emozzjonali minuta ta 'Settembru 11 billi jikkodifikaw il-kontenut emozzjonali tal-messaġġi pager bil-persentaġġ ta' kliem relatati ma '(1) dwejjaq (eż., "Crying" u "grief"), (2) ansjetà ( eż. "inkwetat" u "inkwetanti"), u (3) rabja (eż., "mibegħda" u "kritiku"). Huma sabu li d-dwejjaq u l-ansjetà varjaw matul il-ġurnata mingħajr tendenza qawwija, iżda li kien hemm żieda qawwija fir-rabja matul il-ġurnata kollha. Din ir-riċerka tidher li hija illustrazzjoni mill-isbaħ tal-qawwa ta 'dejjem fuq is-sorsi tad-dejta: kieku sorsi tradizzjonali ta' dejta kienu użati, kien ikun impossibbli li tinkiseb tali skeda ta 'riżoluzzjoni għolja tar-reazzjoni immedjata għal avveniment mhux mistenni.

Sena sena wara, madankollu, Cynthia Pury (2011) ħarset id-dejta b'aktar attenzjoni. Hija skopriet li numru kbir ta 'messaġġi allegatament rrabjati kienu ġġenerati minn pager wieħed u kienu kollha identiċi. Hawn dak li dawk il-messaġġi allegatament rrabjati qalu:

"Magna Reboot NT [isem] fil-kabinett [isem] fi [post]: KRITIKA: [data u l-ħin]"

Dawn il-messaġġi ġew immarkati rrabjati għax inkludew il-kelma "KRITIKA", li ġeneralment tista 'tindika rabja iżda f'dan il-każ ma tagħmilx hekk. It-tneħħija tal-messaġġi ġenerati minn dan il-pagatur awtomatiku waħdieni telimina kompletament iż-żieda apparenti fil-ġrieħi matul il-ġurnata (figura 2.4). Fi kliem ieħor, ir-riżultat ewlieni Back, Küfner, and Egloff (2010) kien artifact ta 'pager wieħed. Kif juri dan l-eżempju, l-analiżi relattivament sempliċi ta 'data relattivament kumplessa u messy għandha l-potenzjal li tmur ħażin b'mod serju.

Figura 2.4: Xejriet stmati ta 'rabja matul il-kors ta' Settembru 11, 2001 ibbażati fuq 85,000 pagers Amerikani (Lura, Küfner, u Egloff 2010, 2011; Pury 2011). Oriġinarjament, Lura, Küfner, u Egloff (2010) irrapportaw mudell ta 'rabja dejjem tiżdied matul il-ġurnata. Madankollu, ħafna minn dawn il-messaġġi apparentement rrabjati ġew iġġenerati minn pager wieħed li ripetutament bagħat il-messaġġ li ġej: Reboot NT magna [isem] fil-kabinett [isem] fi [lokalità]: KRITIKA: [data u ħin]. B'din il-messaġġ imneħħi, iż-żieda apparenti fil-rabja tisparixxi (Pury 2011; Lura, Küfner, u Egloff 2011). Adattat minn Pury (2011), figura 1b.

Figura 2.4: Xejriet stmati ta 'rabja matul il-kors ta' Settembru 11, 2001 ibbażati fuq 85,000 pagers Amerikani (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . Oriġinarjament, Back, Küfner, and Egloff (2010) irrapportaw mudell ta 'rabja dejjem tiżdied matul il-ġurnata. Madankollu, ħafna minn dawn il-messaġġi apparentement rrabjati ġew iġġenerati minn pager wieħed li ripetutament bagħat il-messaġġ li ġej: "Reboot NT magna [isem] fil-kabinett [isem] fi [lokazzjoni]: KRITIKA: [data u ħin]". B'din il-messaġġ imneħħi, iż-żieda apparenti fil-rabja tisparixxi (Pury 2011; Back, Küfner, and Egloff 2011) . Adattat minn Pury (2011) , figura 1b.

Filwaqt li data maħmuġa li tinħoloq b'mod mhux intenzjonat - bħal dik minn pagatur storbjuż wieħed - tista 'tiġi skoperta minn riċerkatur raġonevolment attent, hemm ukoll xi sistemi onlajn li jattiraw spammers intenzjonati. Dawn l-ispammers jiġġeneraw b'mod attiv dejta falza, u ħafna drabi mmotivata mill-profitt ix-xogħol diffiċli ħafna biex iżommu l-ispamjar moħbi tagħhom. Per eżempju, l-attività politika fuq Twitter tidher li tinkludi mill-inqas xi spam raġonevolment sofistikat, fejn xi kawżi politiċi huma intenzjonalment magħmula biex iħarsu aktar popolari milli fil-fatt huma (Ratkiewicz et al. 2011) . Sfortunatament, it-tneħħija ta 'dan l-ispam intenzjonat jista' jkun pjuttost diffiċli.

Naturalment dak li hu meqjus bħala dejta maħmuġa jista 'jiddependi, parzjalment, fuq il-mistoqsija ta' riċerka. Per eżempju, bosta modifiki għall-Wikipedija huma maħluqa minn robots awtomatizzati (Geiger 2014) . Jekk inti interessat fl-ekoloġija tal-Wikipedija, allura dawn l-edits maħluqa minn bot huma importanti. Imma jekk inti interessat fil-mod kif il-bnedmin jikkontribwixxu għall-Wikipedija, allura l-editjar maħluq mill-bot għandu jiġi eskluż.

M'hemm l-ebda teknika jew approċċ statistiku wieħed li jista 'jiżgura li tkun imnaddfa biżżejjed id-data maħmuġa tiegħek. Fl-aħħar, naħseb li l-aħjar mod biex jevita li jkun imqarraq minn dejta maħmuġa huwa li nifhem kemm jista 'jkun dwar kif inħolqot id-data tiegħek.