2.3.2.6 hugaw

Big tinubdan sa data mahimong puno sa mga junk ug spam.

Ang ubang mga tigdukiduki nagtuo nga daku nga tinubdan sa data, ilabi na niadtong gikan sa online tinubdan, ang mga tin-awng tungod kay sila awtomatikong kolektahon. Sa pagkatinuod, ang mga tawo nga nagtrabaho sa dagkong tinubdan sa data masayud nga sila mga kanunay hugaw. Nga mao, nga sila kanunay nga naglakip sa mga data nga dili pagpamalandong sa tinuod nga mga buhat sa interes sa mga tigdukiduki. Daghang mga sosyal nga mga siyentipiko na pamilyar sa proseso sa paghinlo sa dako nga-scale nga data sa social survey, apan sa paghinlo daku nga tinubdan sa data mas lisud nga alang sa duha ka mga rason: 1) wala sila gibuhat sa mga tigdukiduki alang sa mga tigdukiduki ug 2) tigdukiduki sa kinatibuk-dili kaayo sa pagsabut kon sa unsang paagi sila nangahimo.

Ang mga kapeligrohan sa hugaw nga mga data digital pagsubay sa mga gihulagway sa Back ug mga kauban ' (2010) sa pagtuon sa mga emosyonal nga tubag sa mga pag-atake sa Septiyembre 11, 2001. Ang mga tigdukiduki sagad magtuon sa tubag sa makalilisang nga mga hitabo sa paggamit sa retrospective datos nga nakolekta sa ibabaw sa mga bulan o mga tuig pa gani. Apan, Balik ug kauban nga makita sa usa ka kanunay nga-sa tinubdan sa digital nga mga timailhan-ang timestamped, awtomatikong natala mga mensahe gikan sa 85,000 Amerikano nga pager-ug kini nakatabang sa mga tigdukiduki sa pagtuon emosyonal nga tubag sa usa ka daghan nga mas maayo nga timescale. Balik ug kaubanan gibuhat sa usa ka minuto-sa-minutos nga emosyonal nga talaan sa panahon sa Septyembre 11th pinaagi sa coding sa emosyonal nga sulod sa mga mensahe pager sa porsiyento sa mga pulong nga may kalabutan sa (1) kasubo (pananglitan, nga nagasinggit, kasubo), (2) kabalaka (pananglitan, nabalaka, makalilisang), ug (3) sa kasuko (pananglitan, pagdumot, kritikal nga). Ilang nakaplagan nga ang kaguol ug kabalaka nagpalingpaling sa tibuok adlaw nga walay usa ka lig-on nga sumbanan, apan nga may usa ka talagsaong pagtaas sa kasuko sa tibuok adlaw. research Kini nga daw usa ka maanindot nga ilustrasyon sa gahum sa kanunay-sa tinubdan sa data: sa paggamit sa standard nga mga pamaagi nga kini mahimong imposible nga sa maong usa ka taas nga-nga resolusyon talaan sa panahon sa diha-diha nga tubag sa usa ka wala damha nga hitabo.

Lang sa usa ka tuig sa ulahi, Apan, Cynthia Pury (2011) mitan-aw sa mga data nga mas pag-ayo. nadiskobrehan niya nga ang usa ka dako nga gidaghanon sa mga kuno nasuko mensahe namugna sa usa ka pager ug sila sa tanan nga susama. Ania ang mga kuno nasuko mga mensahe miingon:

"Rebot NT machine [ngalan] sa kabinete [ngalan] sa [nahimutangan]: KRITIKAL: [petsa ug sa panahon]"

Kini nga mga mensahe nga gimarkahan og nasuko tungod kay sila naglakip sa pulong nga "KRITIKAL", nga mahimo nga sa kinatibuk nagpakita sa kasuko, apan wala sa niini nga kaso. Sa pagwagtang sa mga mensahe nga namugna pinaagi niini nga ka automated pager bug-os nga mitangtang sa mga dayag nga pagtubo sa kasuko sa ibabaw sa ginsakpan sa adlaw (Figure 2.2). Sa laing mga pulong, ang mga nag-unang resulta sa Back, Küfner, and Egloff (2010) mao ang usa ka karaang butang sa usa ka pager. Ingon nga panig-ingnan niini nga naghulagway, medyo yano nga pagtuki sa medyo komplikado ug nagkalamukat nga data adunay potensyal sa pag-adto nga seryosong sayop.

Figure 2.2: Gibana-bana nga dagan sa kasuko sa ibabaw sa ginsakpan sa Septiyembre 11, 2001 base sa 85,000 Amerikano nga pager (Back, Küfner, ug Egloff 2010; Pury 2011; Balik, Küfner, ug Egloff 2011). Sinugdan, Balik, Küfner, ug Egloff (2010) report sa usa ka sumbanan sa pagdugang sa kasuko sa tibuok adlaw. Apan, ang kadaghanan niini nga mga dayag nasuko mensahe namugna sa usa ka pager nga balik-balik nga nagpadala sa mosunod nga mensahe: rebot NT machine [ngalan] sa kabinete [ngalan] sa [nahimutangan]: KRITIKAL: [petsa ug sa panahon]. Uban sa gikuha niini nga mensahe, ang dayag nga pagtubo diha sa kasuko mahanaw (Pury 2011; Balik, Küfner, ug Egloff 2011). Kini nga numero mao ang usa ka hulad, kopya sa mga igos 1B sa Pury (2011).

Figure 2.2: Gibana-bana nga dagan sa kasuko sa ibabaw sa ginsakpan sa Septiyembre 11, 2001 base sa 85,000 Amerikano nga pager (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Sinugdan, Back, Küfner, and Egloff (2010) report sa usa ka sumbanan sa pagdugang sa kasuko sa tibuok adlaw. Apan, ang kadaghanan niini nga mga dayag nasuko mensahe namugna sa usa ka pager nga balik-balik nga nagpadala sa mosunod nga mensahe: "rebot NT machine [ngalan] sa kabinete [ngalan] sa [nahimutangan]: KRITIKAL: [petsa ug sa panahon]." Uban sa gikuha niini nga mensahe, ang dayag nga pagtubo diha sa kasuko mahanaw (Pury 2011; Back, Küfner, and Egloff 2011) . Kini nga numero mao ang usa ka hulad, kopya sa mga igos 1B sa Pury (2011) .

Samtang hugaw nga data nga gibuhat sa dili tinuyo-sama gikan sa usa ka saba pager-makita sa usa ka makatarunganon amping tigdukiduki, adunay pipila ka mga online nga sistema nga pagdani sa tinuyo spammers usab. Kini nga mga spammers aktibong makamugna peke nga data, ug-sa kasagaran nadasig sa kapuslanan-buhat kaayo lisud nga sa pagtuman sa ilang spamming gitago. Kay sa panig-ingnan, sa politika nga kalihokan sa Twitter daw naglakip sa labing menos pipila makatarunganon sopistikado spam, diin ang pipila sa politika hinungdan nga tinuyo nga gihimo sa pagtan-aw sa mas popular kay sa aktuwal nga sila (Ratkiewicz et al. 2011) . Tigdukiduki nga nagtrabaho uban sa mga datos nga naglakip sa tinuyo nga spam-atubang sa hagit sa pagkabig sa ilang mamiminaw nga sila nakadipara ug gikuha kalabutan nga Spam.

Sa katapusan, ang giisip nga hugaw nga datos mahimong agad sa malalangon nga mga paagi sa imong mga pangutana research. Kay sa panig-ingnan, sa daghan nga mga pag-usab sa Wikipedya gibuhat man sa automated bots (Geiger 2014) . Kon ikaw interesado sa ekolohiya sa Wikipedia, nan kini nga mga bots importante. Apan, kon ikaw interesado sa kon sa unsang paagi ang mga tawo makatampo sa Wikipedia, kini nga mga pag-edit nga gihimo sa niini nga mga bots kinahanglan iapil.

Ang labing maayo nga mga paagi sa paglikay nga malingla sa mga hugaw nga mga datos nga makasabut kon sa unsang paagi ang inyong mga data sa gibuhat sa paghimo sa yano nga exploratory pagtuki, sama sa paghimo og yano nga mga laraw nga magkatibulaag.