2.3.1 Big

Dako nga datasets mao ang usa ka paagi sa usa ka katapusan; sila dili usa ka katapusan sa ilang kaugalingon.

Ang pinakalapnag nga gihisgotan nga bahin sa dagkong mga tinubdan sa datos mao nga sila ang BIG. Daghang mga papel, pananglitan, magsugod pinaagi sa paghisgot-ug usahay pagpanghambog-kung unsa kadaghan nga datos ang ilang gisusi. Pananglitan, usa ka mantalaan nga gipatik sa Science nga nagtuon sa mga us aka paggamit sa pulong sa Google Books corpus naglakip sa mosunod (Michel et al. 2011) :

"Ang [Our] corpus adunay kapin sa 500 ka bilyon nga mga pulong, sa Ingles (361 bilyon), Pranses (45 bilyon), Espanyol (45 bilyon), German (37 bilyon), Intsik (13 bilyon), Russian (35 bilyon) (2 ka bilyon). Ang labing karaan nga mga buhat gipatik sa 1500s. Ang unang mga dekada gihulagway sa pipila ka mga libro kada tuig, nga gilangkoban og gatusan ka libo nga mga pulong. Pagka 1800, ang corpus motubo ngadto sa 98 milyon nga mga pulong kada tuig; sa tuig 1900, 1.8 bilyon; ug sa tuig 2000, 11 bilyones. Ang corpus dili mabasa sa usa ka tawo. Kon mosulay ka lang magbasa lamang sa entry sa Iningles nga Iningles gikan sa tuig 2000, sa makatarunganon nga tulin nga 200 ka mga pulong / min, nga walay mga pagbag-o alang sa pagkaon o pagkatulog, mokabat og 80 ka tuig. Ang han-ay sa mga sulat mao ang 1000 ka beses nga mas taas kay sa genome sa tawo: Kon imong gisulat kini sa usa ka tul-id nga linya, moabot kini sa Bulan ug balik sa 10 ka beses. "

Ang sukdanan niini nga kasayuran sa walay duhaduha makapahingangha, ug kitang tanan lagsik nga ang kopya sa Google Books nagpagawas niining mga datos ngadto sa publiko (sa pagkatinuod, ang uban nga mga kalihokan sa katapusan niining kapitulo naggamit niini nga datos). Apan, bisan kanus-a nimo makita ang usa ka butang nga sama niini kinahanglan nga imong pangutan-on: ang tanan ba nga datos tinuod gayud nga nagabuhat? Mahimo ba nila nga gihimo ang sama nga panukiduki kung ang datos mahimong makaabot sa Bulan ug balik lamang kausa? Unsa kaha kon ang datos moabot lamang sa tumoy sa Mount Everest o sa ibabaw sa Eiffel Tower?

Sa kini nga kaso, ang ilang pagsiksik, sa pagkatinuod, adunay pipila ka mga kaplag nga nagkinahanglan sa usa ka dako nga corpus sa mga pulong sulod sa taas nga panahon. Pananglitan, ang usa ka butang nga ilang gisuhid mao ang ebolusyon sa gramatika, ilabi na ang mga pagbag-o sa gidaghanon sa dili ordinaryo nga verb conjugation. Tungod kay ang pipila ka mga dili regular nga mga berbo talagsa ra kaayo, ang usa ka dako nga gidaghanon sa mga datos kinahanglan nga makakita sa mga kausaban sa panahon. Apan sa kasagaran, ang mga tigdukiduki ingon nga nagtagad sa gidak-on sa gigikanan sa daku nga datos ingon nga usa ka katapusan- "tan-awa kung unsa ka daghan nga kasayuran nga akong masugatan" -nga labaw pa kay sa usa ka paagi sa pipila ka labaw nga importante nga tumong sa siyensiya.

Sa akong kasinatian, ang pagtuon sa talagsaon nga mga panghitabo mao ang usa sa tulo ka mga piho nga natapos nga siyentipiko nga ang kadaghanan nga mga dataset nga nagtugot. Ang ikaduha mao ang pagtuon sa heterogeneity, ingon nga gipakita sa usa ka pagtuon ni Raj Chetty ug mga kaubanan (2014) sa social mobility sa Estados Unidos. Sa nangagi, daghang mga tigdukiduki ang nagtuon sa sosyal nga paglihok pinaagi sa pagtandi sa mga resulta sa kinabuhi sa mga ginikanan ug mga anak. Ang kanunay nga pagpangita gikan sa kini nga mga literatura mao nga ang mga ginagmay nga mga ginikanan adunay tendensya nga adunay mga anak, apan ang kalig-on niini nga relasyon nagkalainlain sa panahon ug sa mga nasud (Hout and DiPrete 2006) . Apan, bag-ohay lang, si Chetty ug mga kaubanan nakahimo sa paggamit sa mga rekord sa buhis gikan sa 40 ka milyon nga mga tawo aron pag-estimate sa heterogeneity sa intergenerational mobility sa mga rehiyon sa Estados Unidos (numero 2.1). Pananglitan, ilang nakita nga ang posibilidad nga ang usa ka bata makaabot sa kinatibuk-ang sukaranan sa pag-apud-apod sa kinatibuk-ang kita gikan sa usa ka pamilya sa ubos nga sukod mao ang 13% sa San Jose, California, apan mga 4% lamang sa Charlotte, North Carolina. Kon imong tan-awon ang numero 2.1 sa makadiyot, mahimo ka magsugod sa paghunahuna nganong mas hataas pa ang paglihok sa usag usa diha sa ubang mga dapit kay sa uban. Si Chetty ug ang iyang mga kaubanan adunay parehas nga pangutana, ug ilang nakita nga ang mga lugar nga adunay hilit nga mga lugar adunay gamay nga paglainlangan sa panimuyo, pagkunhod sa dili timbang nga kita, mas maayo nga mga eskuylahan sa elementarya, dugang nga kapital sosyal, ug labaw nga kalig-on sa pamilya. Siyempre, kining mga correlation lamang wala magpakita nga kini nga mga hinungdan ang hinungdan sa mas taas nga paglihok, apan kini nagsugyot sa posible nga mga mekanismo nga mahimong masusi sa dugang nga trabaho, nga mao gayud ang gibuhat ni Chetty ug mga kaubanan sa sunod nga buhat. Matikdi kon giunsa nga ang gidak-on sa data mahinungdanon kaayo sa niini nga proyekto. Kung gigamit ni Chetty ug mga kaubanan ang mga rekord sa buhis sa 40 ka libo ka tawo kay sa 40 ka milyon, dili unta nila mahibal-an ang rehiyonal nga heterogeneity ug wala unta sila makahimo sa sunod nga panukiduki aron pagsulay sa pag-ila sa mga mekanismo nga naghimo niini nga kausaban.

Figure 2.1: Mga banabana sa usa ka bata nga kahigayonan nga makaabot sa top 20% sa pag-apud-apod sa kita nga gihatag sa mga ginikanan sa ubos nga 20% (Chetty et al. 2014). Ang mga pagtantiya sa rehiyonal nga lebel, nga nagpakita sa heterogeneity, natural nga mosangpot ngadto sa makapaikag ug mahinungdanon nga mga pangutana nga wala maggikan sa usa ka gibana-bana nga gidaghanon sa nasud. Kini nga mga pagtantiya sa rehiyon nga nahimo nga posible sa usa ka bahin tungod kay ang mga tigdukiduki naggamit sa usa ka dako nga dako nga tinubdan sa datos: ang mga rekord sa buhis nga 40 ka milyon nga mga tawo. Gihimo gikan sa datos nga anaa sa http://www.equality-of-opportunity.org/.

Figure 2.1: Mga banabana sa usa ka bata nga kahigayonan nga makaabot sa top 20% sa pag-apud-apod sa kita nga gihatag sa mga ginikanan sa ubos nga 20% (Chetty et al. 2014) . Ang mga pagtantiya sa rehiyonal nga lebel, nga nagpakita sa heterogeneity, natural nga mosangpot ngadto sa makapaikag ug mahinungdanon nga mga pangutana nga wala maggikan sa usa ka gibana-bana nga gidaghanon sa nasud. Kini nga mga pagtantiya sa rehiyon nga nahimo nga posible sa usa ka bahin tungod kay ang mga tigdukiduki naggamit sa usa ka dako nga dako nga tinubdan sa datos: ang mga rekord sa buhis nga 40 ka milyon nga mga tawo. Gihimo gikan sa datos nga anaa sa http://www.equality-of-opportunity.org/.

Sa katapusan, agi og dugang sa pagtuon sa talagsaon nga mga panghitabo ug pagtuon sa heterogeneity, daghang mga dataset usab makahimo sa mga tigdukiduki sa pag-ila sa gagmay nga kalainan. Sa pagkatinuod, kadaghanan sa gitutok sa dagkong datos sa industriya mao ang mahitungod niining gagmay nga mga kalainan: ang masaligon nga pag-ila sa kalainan tali sa 1% ug 1.1% nga pag-klik sa mga rate sa usa ka ad mahimong makahubad ngadto sa minilyon nga dolyar sa sobra nga kita. Apan, sa pipila nga siyentipiko nga mga kahimanan, ang ingon nga gagmay nga mga kabingkilan dili mahimo nga hinungdanon, bisan kon kini mahinungdanon sa istatistika (Prentice and Miller 1992) . Apan, sa pipila ka mga palisiya sa mga palisiya, mahimo sila nga mahimong importante kung giisip nga aggregate. Pananglitan, kung adunay duha ka pangpubliko nga pang-kahimsog sa panglawas ug ang usa gamay nga mas epektibo kay sa usa, nan ang pagpili sa mas epektibo nga interbensyon mahimong makaluwas sa libolibong dugang kinabuhi.

Bisan tuod ang kaligdong sa kinatibuk-an usa ka maayong kabtangan kon gamiton sa husto, akong namatikdan nga kini usahay modala ngadto sa konsepto nga sayup. Tungod sa pipila ka katarungan, ang kadaghanan daw nangulo sa mga tigdukiduki sa pagsalikway kung giunsa nga ang ilang datos gihimo. Samtang ang bigness nagpamenos sa panginahanglan nga mabalaka mahitungod sa sayop nga kasaypanan, kini sa pagkatinuod nagdugang sa panginahanglan nga mabalaka mahitungod sa sistematikong mga sayop, ang mga matang sa mga sayup nga akong ihulagway sa ubos nga mitumaw gikan sa mga biayon kung giunsa ang mga datos gibuhat. Pananglitan, sa usa ka proyekto nga akong gihulagway sa ulahi niining kapituloha, gigamit sa mga tigdukiduki ang mga mensahe nga namugna niadtong Septembre 11, 2001 aron makamugna og usa ka timeline sa emosyonal nga resolusyon sa reaksyon sa pag-atake sa mga terorista (Back, Küfner, and Egloff 2010) . Tungod kay ang mga tigdukiduki adunay daghan nga mga mensahe, dili sila kinahanglan nga mabalaka kon ang mga sumbanan nga ilang nakita-nagdugang sa kasuko sa tibuok nga adlaw-mahimong ikapatin-aw pinaagi sa random variation. Adunay daghan kaayo nga datos ug klaro kaayo ang sumbanan nga ang tanang statistical statistical nga mga pagsulay nagsugyot nga kini usa ka tinuod nga sumbanan. Apan, kini nga mga pagtuon sa estadistika wala'y kabangkaagan kon giunsa ang datos gibuhat. Sa pagkatinuod, nahibal-an nga daghan sa mga sumbanan ang may kalabutan sa usa ka bot nga nakamugna og mas daghang kahulogan nga mga mensahe sa tibuok adlaw. Ang pagwagtang niining usa ka bota hingpit nga naglaglag sa pipila sa mahinungdanon nga mga kaplag sa papel (Pury 2011; Back, Küfner, and Egloff 2011) . Sa yano nga paagi, ang mga tigdukiduki nga wala maghunahuna bahin sa sistematikong kasaypanan nag-atubang sa kapeligrohan sa paggamit sa ilang dagkong mga dataset aron makuha ang eksaktong pagbana-bana sa dili importante nga gidaghanon, sama sa emosyonal nga sulod sa mga kahulogan nga mga mensahe nga gihimo sa usa ka automated nga bot.

Sa katapusan, ang dagkong mga dataset dili usa ka katapusan sa ilang mga kaugalingon, apan kini makahimo sa pipila ka mga matang sa panukiduki lakip ang pagtuon sa talagsaon nga mga panghitabo, ang pagbana-bana sa heterogeneity, ug ang pagtiktik sa gagmay nga kalainan. Ang mga dagko nga mga dataset daw usab nga nanguna sa pipila ka mga tigdukiduki sa pagsalikway kung giunsa ang ilang mga datos gibuhat, nga makadala kanila sa pagkuha sa usa ka tukmang gibanabana nga dili importante nga gidaghanon.