2.3.9 Dirty

Big tinubdan sa data mahimong puno sa mga junk ug spam.

Ang pipila ka mga tigdukiduki nagtuo nga ang dagkong mga tinubdan sa datos, ilabi na ang mga tinubdan sa online, mahinungdanon tungod kay kini awtomatikong gikolekta Sa pagkatinuod, ang mga tawo nga nagtrabaho sa dagkong mga tinubdan sa datos nahibalo nga sila kanunay nga hugaw . Kana mao, kanunay sila nga naglakip sa mga datos nga wala magpakita sa tinuod nga mga buhat sa interes sa mga tigdukiduki. Ang kadaghanan sa sosyal nga mga siyentipiko nasinati na sa proseso sa paghinlo sa dagkong datos sa social survey, apan ang pagpanglimpyo sa dagkong mga tinubdan sa datos daw mas lisud. Sa akong hunahuna ang kinatibuk-ang tinubdan sa maong kalisud mao nga daghan niining dagkong mga tinubdan sa datos ang wala gayud gituyo nga gamiton alang sa pagsiksik, ug busa wala kini gikolekta, gitipigan, ug gi-dokumentado sa usa ka paagi nga nagpahigayon sa paglimpyo sa datos.

Ang mga kapeligrohan sa hugaw nga datos sa digital nga pagsubay giilustrar ni Back ug colleagues ' (2010) pagtuon sa emosyonal nga tubag sa mga pag-atake sa Septembre 11, 2001, nga akong gihisgutan sa makadiyut sa kapitulo. Kasagaran nga gitun-an sa mga tigdukiduki ang tubag sa makalilisang nga mga panghitabo gamit ang retrospective data nga nakolekta sulod sa mga bulan o bisan mga tuig. Apan, ang Back ug mga kauban nakakaplag sa kanunay nga tinubdan sa digital nga mga timailhan-ang timestamped, awtomatikong girekord nga mga mensahe gikan sa 85,000 nga mga pager nga Amerikano-ug kini nakapahimo kanila sa pagtuon sa emosyonal nga tubag sa mas maayo nga kapanahunan sa panahon. Gihimo nila ang usa ka timeline sa emosyonal nga panahon sa Septyembre 11 pinaagi sa pagsulat sa emosyonal nga sulod sa mga mensahe sa pager pinaagi sa porsyento sa mga pulong nga may kalabutan sa (1) kasubo (eg, "paghilak" ug "kasubo"), (2) kabalaka ( pananglitan, "nabalaka" ug "nahadlok"), ug (3) kasuko (pananglitan, "pagdumot" ug "kritikal"). Nakita nila nga ang kasubo ug kabalaka nag-usab-usab sa tibuok adlaw nga walay lig-on nga sumbanan, apan adunay dakong pag-uswag sa kasuko sa tibuok adlaw. Kini nga panukiduki daw usa ka nindot nga ilustrasyon sa gahum sa kanunay nga mga tinubdan sa datos: kung ang tradisyonal nga mga tinubdan sa datos gigamit, imposible nga makuha ang ingon nga taas nga resolusyon nga timeline sa dihadiha nga tubag sa wala damha nga panghitabo.

Hinuon, usa ka tuig ang milabay, bisan pa, si Cynthia Pury (2011) mitan-aw sa datos nga labaw nga mabinantayon. Iyang nadiskobrehan nga ang daghang gidaghanon sa giingong kasuko nga mga mensahe nga gihimo sa usa ka pager ug silang tanan managsama. Mao kini ang giingon nga gikaligutgutan nga mga mensahe:

"Rebot NT machine [ngalan] sa kabinete [ngalan] sa [nahimutangan]: KRITIKAL: [petsa ug sa panahon]"

Kini nga mga mensahe gimarkahan tungod kay kini naglakip sa pulong nga "kritiko," nga sa kinatibuk-an nagpakita sa kasuko apan sa kini nga kaso wala. Ang pagwagtang sa mga mensahe nga namugna niining usa ka awtomatik nga pager bug-os nga nagwagtang sa dayag nga pag-uswag sa kasuko sa paglabay sa adlaw (pigura 2.4). Sa laing pagkasulti, ang nag-unang resulta sa Back, Küfner, and Egloff (2010) usa ka artifact sa usa ka pager. Ingon sa gipakita niini nga pananglitan, ang medyo yano nga pag-analisar sa medyo komplikado ug hugaw nga datos adunay potensyal nga mahimong sayup nga seryoso.

Figure 2.4: Gibanabana nga mga uso sa kasuko sulod sa Septyembre 11, 2001 base sa 85,000 nga mga pager sa Amerika (Balik, Küfner, ug Egloff 2010, 2011; Pury 2011). Sa sinugdan, si Back, Küfner, ug Egloff (2010) nagtaho sa sumbanan sa nagkadaghang kasuko sa tibuok adlaw. Bisan pa, kadaghanan niining mga nasuko nga mga mensahe nga gihimo sa usa ka pager nga kanunay nagpadala sa mosunod nga mensahe: Reboot ang makina sa NT [ngalan] sa cabinet [ngalan] sa [lugar]: CRITICAL: [petsa ug oras]. Uban niini nga mensahe gikuha, ang dayag nga pagsaka sa kasuko nawala (Pury 2011; Back, Küfner, ug Egloff 2011). Gikuha gikan sa Pury (2011), numero 1b.

Figure 2.4: Gibanabana nga mga uso sa kasuko sulod sa Septyembre 11, 2001 base sa 85,000 nga mga pager sa Amerika (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . Sa sinugdan, si Back, Küfner, and Egloff (2010) nagtaho sa sumbanan sa nagkadaghang kasuko sa tibuok adlaw. Apan, ang kadaghanan niining mga nasuko nga mga mensahe gimugna sa usa ka pager nga kanunay nagpadala sa mosunod nga mensahe: "Reboot ang makina sa NT [ngalan] sa kabinet [ngalan] sa [lugar]: CRITICAL: [date and time]". Uban niini nga mensahe gikuha, ang dayag nga pagsaka sa kasuko nawala (Pury 2011; Back, Küfner, and Egloff 2011) . Gikuha gikan sa Pury (2011) , numero 1b.

Samtang ang hugaw nga datos nga gimugna nga wala tuyoa-sama sa gikan sa usa ka bisag nga pager-mahimo nga mahibal-an sa usa ka maampingong tigpanukiduki, adunay mga pipila usab ka mga sistema sa internet nga nagdani sa tinuyo nga mga spammer. Kini nga mga spammers aktibong makamugna og mga peke nga datos, ug-kasagaran nga gipalihok sa ganansya nga lisud kaayo aron mapabilin ang ilang spamming. Pananglitan, ang politikanhong kalihokan sa Twitter daw naglakip sa labing menos pipila ka makatarunganong sopistikado nga spam, diin pipila ka mga hinungdan sa politika ang (Ratkiewicz et al. 2011) mas popular kay sa tinuod (Ratkiewicz et al. 2011) . Ikasubo, ang pagwagtang niini nga intentional nga spam mahimo nga malisud.

Siyempre unsa ang giisip nga hugaw nga kasayuran mahimo nga magdepende, sa bahin, sa panukiduki nga pangutana. Pananglitan, daghang mga pag-usab sa Wikipedya ang gimugna sa mga automated bot (Geiger 2014) . Kon ikaw interesado sa ekolohiya sa Wikipedya, nan ang mga pag-usab nga gihimo sa bot nga gikinahanglan. Apan kon ikaw interesado kon giunsa sa mga tawo nga makaamot sa Wikipedya, nan ang pag-edit sa mga bot kinahanglan dili iapil.

Walay bisan usa ka statistical nga pamaagi o pamaagi nga makaseguro nga igo ka nga nanglimpyo sa imong hugaw nga datos. Sa katapusan, sa akong hunahuna ang labing maayo nga paagi sa paglikay nga malimbongan sa hugaw nga kasayuran mao ang pagsabut kutob sa mahimo kon giunsa ang imong data gihimo.