2.3.1.1 Big

Dako nga datasets mao ang usa ka paagi sa usa ka katapusan; sila dili usa ka katapusan sa ilang kaugalingon.

Ang una sa tulo ka mga maayo nga mga kinaiya sa dagkong nga data mao ang labing gihisgutan: kini mao ang mga dagko nga impormasyon. Kini nga mga tinubdan sa data mahimong dako nga sa tulo ka lain-laing mga paagi: sa daghang mga tawo, daghang mga impormasyon matag tawo, o sa daghan nga mga obserbasyon sa panahon. Ang pagbaton og usa ka dako nga panid makahimo sa pipila ka piho nga mga matang sa research-igsusukod heterogeneity, pagtuon talagsaong mga panghitabo, pagmatikod gagmay nga mga kalainan, ug sa paghimo sa causal banabana gikan sa obserbar sa data. Kini usab daw sa paggiya ngadto sa usa ka piho nga matang sa sloppiness.

Ang unang butang nga alang sa nga gidak-on mao ang labi na mapuslanon nga nagalihok sa unahan average sa paghimo sa mga banabana alang sa piho nga mga segundaryong mga grupo. Kay sa panig-ingnan, Gary Hari, Jennifer Pan, ug Molly Roberts (2013) gisukod ang kalagmitan nga social media haligi sa China nga censored sa gobyerno. Pinaagi sa iyang kaugalingon niini nga average nga kalagmitan sa pagtangtang dili kaayo makatabang sa pagsabot ngano nga ang gobyerno sensor sa pipila haligi apan dili sa uban. Apan, tungod kay ang ilang panid naglakip sa 11 ka milyon nga mga haligi, Hari ug mga kauban usab og mga banabana alang sa kalagmitan sa censorship sa haligi sa 85 lain nga kategoriya (pananglitan, pornograpiya, Tibet, ug Traffic sa Beijing). Pinaagi sa pagtandi sa kalagmitan sa censorship sa haligi sa lain-laing mga kategoriya, sila makahimo sa pagsabut kon sa unsang paagi ug ngano nga ang gobyerno sensor sa pipila ka mga matang sa mga haligi. Uban sa 11 ka libo ka mga haligi (kay sa 11 milyones haligi), dili sila makahimo sa pagmugna kategoriya-piho nga niini nga mga banabana.

Ikaduha, gidak-on mao ang labi mapuslanon alang sa pagtuon sa talagsaon nga mga panghitabo. Kay sa panig-ingnan, Goel ug kaubanan (2015) Gusto sa pagtuon sa nagkalain-lain nga mga paagi nga ang mga tweets makaadto viral. Tungod kay ang dako nga nagbusagak sa re-tweet mao ang hilabihan talagsaon-mahitungod sa usa sa sa usa ka 3,000 ka-nga ilang gikinahanglan sa pagtuon sa labaw pa kay sa usa ka bilyon nga Tweets aron sa pagpangita sa igo dako nagbusagak alang sa ilang pagtuki.

Ikatulo, dako datasets makahimo tigdukiduki sa pagmatikod sa gagmay nga mga kalainan. Sa pagkatinuod, daghan sa mga focus sa mga dagko nga data sa industriya mao ang mahitungod niini nga mga gagmay nga mga kalainan: reliably-ila sa kalainan tali sa 1% ug 1.1% click-pinaagi sa rates sa usa ka ad makahubad ngadto sa minilyon-milyon nga dolyar sa dugang nga revenue. Sa pipila ka mga kahimtang sa siyensiya, ang maong gamay nga kalainan dili mahimo nga partikular nga importante (bisan pa kon sila sa istadistika mahinungdanon). Apan, sa pipila ka mga kahimtang nga palisiya, ang maong gamay nga kalainan mahimong importante sa diha nga gitan-aw sa hiusa. Pananglitan, kon adunay duha ka mga interbensyon sa panglawas sa publiko ug ang usa mao ang gamay nga mas epektibo kay sa uban nga mga, unya pagbalhin ngadto sa mas epektibo nga interbensyon nga matapos sa pagluwas sa liboan ka mga dugang nga mga kinabuhi.

Sa kataposan, dako set sa data sa hilabihan gayud sa atong abilidad sa paghimo sa causal banabana gikan sa obserbar sa data. Bisan tuod dako nga datasets dili batakan-usab sa mga problema uban sa paghimo sa causal pangagpas gikan sa obserbar sa data, matching ug natural nga eksperimento-duha ka mga teknik nga mga tigdukiduki og alang sa paghimo og causal-angkon gikan sa maobserbahang nga data-duha sa hilabihan gayud makabenepisyo gikan sa dako nga datasets. ko pagpatin-aw ug sa paghulagway niini nga pag-angkon sa mas dako nga detalye sa ulahi sa niini nga kapitulo sa diha nga paghulagway sa ako mga pamaagi sa panukiduki.

Bisan tuod bigness mao ang kinatibuk-ang usa ka maayo nga kabtangan diha nga ang gigamit sa husto nga paagi, namatikdan ko nga ang bigness sagad modala ngadto sa usa ka konseptuwal sayop. Alang sa pipila ka rason, bigness daw sa paggiya sa mga tigdukiduki sa pagsalikway sa unsa nga paagi nga ang ilang mga data nga namugna. Samtang bigness nagabuhat sa pagpakunhod sa panginahanglan nga mabalaka mahitungod sa random sayop, kini sa pagkatinuod nagdugang sa panginahanglan nga mabalaka mahitungod sa sistematiko nga mga sayop, ang mga matang sa mga sayop nga ko paghulagway sa mas ubos nga bumangon ka gikan sa mga pagpihig sa kon sa unsang paagi nga data gilalang ug kolektahon. Sa usa ka gamay nga panid, sa random kasaypanan ug sistematikong sayop mahimong importante, apan sa usa ka dako nga panid random sayop mahimong average ug sistematikong sayop nga nagsakit. Tigdukiduki nga wala maghunahuna mahitungod sa sistematiko nga sayop matapos sa paggamit sa ilang dako nga datasets sa pagkuha sa usa ka tukmang banabana sa sayop nga butang; sila mahimong tukma tukma (McFarland and McFarland 2015) .