2.3.2.6 unyi

Big data isi mmalite nwere ike kwajuru na junk na spam.

Ụfọdụ ndị nchọpụta kweere na nnukwu data isi mmalite, karịsịa ndị si online na isi mmalite, na-pristine n'ihi na ha na-anakọtara na-akpaghị aka. N'ezie, ndị mmadụ bụ ndị na-arụ ọrụ na nnukwu data isi mmalite maara na ha bụ ugboro ugboro unyi. Ya bụ, ha ugboro ugboro na-agụnye data na-adịghị egosipụta ezi omume-adọrọ mmasị ndị na-eme nnyocha. Ọtụtụ na-elekọta mmadụ ọkà mmụta sayensị na-ama maara na usoro nke nhicha nnukwu-ọnụ ọgụgụ na-elekọta mmadụ nnyocha e mere data, ma nhicha nnukwu data isi mmalite na-esi ike karị n'ihi ihe abụọ: 1) ha na-kere site na-eme nnyocha maka nnyocha na 2) na-eme nnyocha n'ozuzu nwere obere nghọta nke otú ekere ha.

Ihe ize ndụ nke ruru unyi digital Chọpụta data na-egosi na Back na ndị ọrụ ibe ' (2010) na-amụ obi omume nye mwakpo September 11, 2001. Ndị nnyocha a na-amụ omume ọdachi iji retrospective data anakọtara n'elu ọnwa ma ọ bụ ọbụna ọtụtụ afọ. Ma, Back na ndị ọrụ ibe hụrụ otu mgbe niile-na isi iyi nke dijitalụ metụtara-ahụ timestamped, na-akpaghị aka dere ozi site na 85.000 American pagers-na a nyeere ndị na-eme nnyocha na-amụ obi nzaghachi on a ukwuu finer timescale. Back na ndị ọrụ ibe kere a nkeji-site-nkeji nke mmetụta uche usoro iheomume nke September 11 site nzuzo na nke mmetụta uche ọdịnaya nke pager ozi site na pasent nke okwu ndị metụtara (1) mwute (eg, na-eti, iru uju), (2) nchegbu (eg, nchegbu, egwu), na (3) iwe (eg, ịkpọasị, oké egwu). Ha chọpụtara na mwute na nchegbu fluctuated nile ụbọchị na-enweghị a ike ụkpụrụ, ma na e nwere a pụtara ìhè na-abawanye na iwe ofụri usen. Nke a nnyocha yiri ka a magburu onwe atụ nke ike nke mgbe nile na-on data isi mmalite:-eji ọkọlọtọ ụzọ ya agaraghị adị ka nwere ndị dị otú ahụ a elu-mkpebi usoro iheomume nke ozugbo na-atụghị anya ihe omume.

Nanị otu afọ mgbe e mesịrị, Otú ọ dị, Cynthia Pury (2011) -ele anya na data nlezianya ka. Na ya chọpụtara na ọnụ ọgụgụ dị ukwuu nke na e weere ya iwe ozi e N'ịbụ otu pager na ha nile ka yiri. Ebe a bụ ihe ndị e weere iwe ozi kwuru, sị:

"Reboot NT igwe [aha] na kabinet [aha] na [ebe]: oké egwu: [ụbọchị na oge]"

Ozi ndị a na-labeled iwe n'ihi na ha gụnyere okwu "dị oké egwu,", nke nwere ike n'ozuzu-egosi iwe ma adịghị na nke a. Wepụ ozi N'ịbụ nke a otu akpaghị aka pager kpamkpam eliminates o abawanye na iwe n'elu N'ezie nke ụbọchị (ọgụgụ 2.2). Ndị ọzọ okwu, isi n'ihi na Back, Küfner, and Egloff (2010) bụ artifact nke otu pager. Dị ka ihe atụ a na-egosi, dịtụ mfe analysis of dịtụ mgbagwoju na-eru unyi data nwere nwere iji gaa kpọrọ ihe na-ezighị ezi.

Chepụta 2.2: Atụmatụ na ọnọdụ na iwe n'elu N'ezie nke September 11, 2001 dabeere 85,000 American pagers (Back, Küfner, na Egloff 2010; Pury 2011; Back, Küfner, na Egloff 2011). Na mbụ, Back, Küfner, na Egloff (2010) kọrọ a ụkpụrụ nke na-amụba iwe ofụri usen. Otú ọ dị, ọtụtụ n'ime ndị a ka o di iwe ozi e N'ịbụ otu pager na ugboro ugboro zipụrụ ndị na-esonụ ozi: Reboot NT igwe [aha] na kabinet [aha] na [ebe]: oké egwu: [ụbọchị na oge]. Na a na ozi a wepụrụ, ihe yiri abawanye na iwe kpamkpam (Pury 2011; Back, Küfner, na Egloff 2011). Ogugu a bu a mmeputakwa nke Fig 1b na Pury (2011).

Chepụta 2.2: Atụmatụ na ọnọdụ na iwe n'elu N'ezie nke September 11, 2001 dabeere 85,000 American pagers (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Na mbụ, Back, Küfner, and Egloff (2010) kọrọ a ụkpụrụ nke na-amụba iwe ofụri usen. Otú ọ dị, ọtụtụ n'ime ndị a ka o di iwe ozi e N'ịbụ otu pager na ugboro ugboro zipụrụ ndị na-esonụ ozi: "Reboot NT igwe [aha] na kabinet [aha] na [ebe]: oké egwu: [ụbọchị na oge]". Na a na ozi a wepụrụ, ihe yiri abawanye na iwe kpamkpam (Pury 2011; Back, Küfner, and Egloff 2011) . Ogugu a bu a mmeputakwa nke Fig 1b na Pury (2011) .

Mgbe unyi data nke na-kere n'amaghị ama-dị ka site n'otu oké ụzụ pager-nwere ike achọpụtara site a ezi uche nlezianya eme nnyocha, e nwekwara ụfọdụ online na sistemụ na-adọta kpachaara anya spammers. Ndị a spammers ifịk ifịk n'ịwa adịgboroja data, na-emekarị-akpali uru-arụsi ọrụ ike iji na-ha na adịgboroja zoro ezo. Dị ka ihe atụ, na ndọrọ ndọrọ ọchịchị ọrụ na Twitter yiri ka na-agụnye ọ dịghị ihe ọzọ ụfọdụ ezi uche ọkaibe spam, adịru oge ụfọdụ metụtara ndọrọ ndọrọ ọchịchị na-ama ụma mee ka anya ndị mmadụ ụtọ karịa ha n'ezie bụ (Ratkiewicz et al. 2011) . Na-eme nnyocha na-arụ ọrụ data na ike ịnwe kpachaara anya spam iche ihe ịma aka nke n'igwa ha na-ege ntị na ha achọpụtala na wepụrụ mkpa spam.

N'ikpeazụ, ihe a na-ewere ruru unyi data nwere ike ịdabere na aghụghọ ụzọ on your research ajụjụ. Dị ka ihe atụ, ọtụtụ edits ka Wikipedia na-kere akpaghị aka bots (Geiger 2014) . Ọ bụrụ na ị nwere mmasị na ọmụmụ ihe dị ndụ nke Wikipedia, mgbe ahụ, ndị a bots dị mkpa. Ma, ọ bụrụ na i nwere mmasị na otú ụmụ mmadụ na-eme ka Wikipedia, ndị a edits mere site ndị a bots ga-ekwe.

Ndị kasị mma isi zere ịbụ ghọgburu site unyi data na-aka ịghọta otú gị data e kere ịrụ dị mfe exploratory analysis, dị ka na-eme ka mfe ikposa plots.