2.3.2.6 maħmuġa

Sorsi ta 'data kbar jistgħu jiġu mgħobbija bil junk u spam.

Xi riċerkaturi jemmnu li s-sorsi ta 'dejta kbar, speċjalment dawk minn sorsi online, huma verġni minħabba li huma miġbura awtomatikament. Fil-fatt, in-nies li ħadmu ma 'sorsi ta' dejta kbar jafu li huma ta 'spiss maħmuġin. Dan huwa, huma ta 'spiss jinkludi data li ma jirriflettux azzjonijiet reali ta' interess għar-riċerkaturi. xjentisti soċjali ħafna diġà huma familjari mal-proċess ta 'tindif fuq skala kbira dejta tal-istħarriġ soċjali, iżda tindif sorsi tad-data kbar huwa iktar diffiċli għal żewġ raġunijiet: 1) huma ma kinux maħluqa minn riċerkaturi għal riċerkaturi u 2) riċerkaturi ġeneralment għandhom inqas konoxxenza ta' kif kienu maħluqa.

Il-perikli ta 'data traċċi diġitali maħmuġ huma illustrati minn Lura u l-kollegi " (2010) studju tar-rispons emozzjonali għall-attakki xahar ta' Settembru 11, 2001. Riċerkaturi tipikament jistudja r-rispons għal avvenimenti traġiċi li jużaw dejta retrospettiva miġbura matul xhur jew anke snin. Iżda, Lura u l-kollegi sabet messaġġi dejjem fuq sors ta 'diġitali traċċi' l timestamped, irreġistrat awtomatikament minn 85,000 Amerikani pagers u dan ippermetta l-riċerkaturi li jistudjaw rispons emozzjonali fuq skala ta 'żmien ifjen ħafna. Lura u l-kollegi ħoloq minuta by minuta kronoliġika emozzjonali ta Settembru 11 mill kodifika tal-kontenut emozzjonali tal-messaġġi pager bil-perċentwali ta 'kliem relatati ma' (1) dwejjaq (eż, biki, grief), (2) ansjetà (eż inkwetat, beżgħana), u (3) rabja (eż, mibegħda, kritiku). Huma sabu li dwejjaq u ansjetà varja matul il-ġurnata mingħajr mudell b'saħħtu, iżda li kien hemm żieda impressjonanti fil-rabja matul il-ġurnata. Din ir-riċerka jidher li jkun illustrazzjoni mill-isbaħ tal-qawwa ta 'dejjem fuq sorsi ta' data: billi jintużaw metodi standard ikun impossibbli li jkollhom din kalendarju b'riżoluzzjoni għolja tat-tweġiba immedjata għal avveniment mhux mistenni.

Biss sena wara, madankollu, Cynthia Pury (2011) ħares lejn id-dejta aktar bir-reqqa. Hija skopriet li numru kbir ta 'messaġġi allegatament rrabjata ġew iġġenerati minn pager wieħed u dawn kienu kollha identiċi. Hawn dak dawk il-messaġġi allegatament rrabjata qal:

"Magna Reboot NT [isem] fil-kabinett [isem] fi [post]: KRITIKA: [data u l-ħin]"

Dawn il-messaġġi kienu ttikkettjati rrabjata għax kienu jinkludu l-kelma "kritika", li jistgħu ġeneralment jindikaw rabja iżda ma f'dan il-każ. Tneħħi l-messaġġi ġġenerati minn din il-pager awtomatizzati wieħed jelimina kompletament iż-żieda apparenti fil rabja matul il-kors tal-ġurnata (Figura 2.2). Fi kliem ieħor, ir-riżultat ewlieni fl Back, Küfner, and Egloff (2010) kien artifact ta pager wieħed. Peress li dan l-eżempju juri, l-analiżi relattivament sempliċi tad-dejta relattivament kumplessi u messy għandu l-potenzjal li jmorru serjament ħażina.

Figura 2.2: tendenzi Stima fil rabja matul il-kors ta '11 settembru, 2001 ibbażata fuq 85,000 pagers Amerikana (Lura, KUFNER, u Egloff 2010; Pury 2011; Lura, KUFNER, u Egloff 2011). Oriġinarjament, Lura, KUFNER, u Egloff (2010) irrapporta xejra ta 'żieda rabja matul il-ġurnata. Madankollu, ħafna minn dawn il-messaġġi rrabjata apparenti kienu ġġenerati minn pager waħda li ripetutament bagħtet l-messaġġ li ġej: magna Reboot NT [isem] fil-kabinett [isem] fi [post]: KRITIKA: [data u l-ħin]. Ma 'dan il-messaġġ mneħħija, iż-żieda apparenti fil rabja tisparixxi (Pury 2011; Lura, KUFNER, u Egloff 2011). Din iċ-ċifra hija riproduzzjoni ta Fig 1B Pury (2011).

Figura 2.2: tendenzi Stima fil rabja matul il-kors ta '11 settembru, 2001 ibbażata fuq 85,000 pagers Amerikana (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Oriġinarjament, Back, Küfner, and Egloff (2010) irrapporta xejra ta 'żieda rabja matul il-ġurnata. Madankollu, ħafna minn dawn il-messaġġi rrabjata apparenti kienu ġġenerati minn pager waħda li ripetutament bagħtet l-messaġġ li ġej: "magna Reboot NT [isem] fil-kabinett [isem] fi [post]: KRITIKA: [data u l-ħin]". Ma 'dan il-messaġġ mneħħija, iż-żieda apparenti fil rabja tisparixxi (Pury 2011; Back, Küfner, and Egloff 2011) . Din iċ-ċifra hija riproduzzjoni ta Fig 1B Pury (2011) .

Waqt li informazzjoni maħmuġin li hija maħluqa mhux intenzjonalment-, bħal minn wieħed storbjużi pager-tista 'tiġi skoperta minn riċerkatur raġonevolment attent, hemm ukoll xi sistemi online li jattiraw min jispammja intenzjonali. Dawn il ispammers jiġġeneraw attiv tad-data foloz, u sikwit ikunu mmotivati ​​minn profitt xogħol iebsa ħafna biex iżommu spamming tagħhom moħbi. Per eżempju, l-attività politika fuq Twitter jidher li jinkludi mill-inqas xi spam raġonevolment sofistikati, li permezz tagħha xi kawżi politiċi huma intenzjonalment magħmula biex tħares aktar popolari minn dawn attwali huma (Ratkiewicz et al. 2011) . Riċerkaturi li jaħdmu ma 'data li jista' jkun fihom l-ispam intenzjonali jiffaċċjaw l-isfida tal konvinċenti udjenza tagħhom li huma jkunu skoperti u mneħħija ispam rilevanti.

Fl-aħħarnett, dak li huwa kkunsidrat data maħmuġin tista 'tiddependi b'modi sottili dwar kwistjonijiet ta' riċerka tiegħek. Per eżempju, ħafna modifiki għall-Wikipedija huma maħluqa mill Bots awtomatizzati (Geiger 2014) . Jekk inti interessat fil-ekoloġija tal-Wikipedija, allura dawn Bots huma importanti. Iżda, jekk int interessat fil-mod kif il-bnedmin tikkontribwixxi għal Wikipedija, dawn edits li saru minn dawn Bots għandhom ikunu esklużi.

L-aħjar modi biex jevitaw li jkunu imqarraq minn data maħmuġ huma li wieħed jifhem kif id-data tiegħek kienu maħluqa biex iwettqu l-analiżi esploratorja sempliċi, bħal li tagħmel plots scatter sempliċi.