2.3.1 Ńlá

Ti o tobi akosile ti wa ni a ọna si ohun opin; ti won wa ni ko ohun opin ninu ara wọn.

Ẹya ti a ṣe apejuwe pupọ ti awọn orisun data nla jẹ pe wọn jẹ BIG. Ọpọlọpọ awọn iwe, fun apẹẹrẹ, bẹrẹ nipasẹ jiroro-ati nigbamiran ti nṣogo-nipa iye data ti wọn ṣayẹwo. Fún àpẹrẹ, ìwé kan tí a tẹjáde ní Imọ ti n ṣe iwadi awọn iṣowo ọrọ-ọrọ ninu iwe ọrọ Google ni eyiti o wa (Michel et al. 2011) :

"[Kuru wa] ni awọn ọrọ ti o ju 500 bilionu, ni ede Gẹẹsi (361 bilionu), Faranse (bilionu 45), ede Spani (bilionu 45), German (idajọ 37), Kannada (bilionu 13), Russian (35 bilionu), ati Heberu (2 bilionu). Awọn iṣẹ ti atijọ julọ ni wọn tẹ ni awọn ọdun 1500. Awọn ọdun ewadun ni o ni ipoduduro nipasẹ awọn iwe diẹ nikan fun ọdun kan, pẹlu awọn ọrọ ọgọrun ẹgbẹrun. Ni ọdun 1800, kúrùpù gbooro sii si awọn ọrọ ọdun 98 fun ọdun kan; nipasẹ 1900, bilionu 1.8; ati nipasẹ 2000, bilionu 11. Kikọ eniyan ko le ka nipasẹ eniyan. Ti o ba gbiyanju lati ka awọn titẹ sii Gẹẹsi nikan lati ọdun 2000 nikan, ni irọrun ti 200 ọrọ / min, laisi idamu fun ounjẹ tabi sisun, o jẹ ọdun 80. Atẹle awọn lẹta jẹ ọdun 1000 to ju idin-ara eniyan lọ: Ti o ba kọwe si ni ila laini, o yoo de ọdọ Oṣupa ati ki o pada sẹhin ni igba mẹwa. "

Awọn ipele ti data yi jẹ laiseaniani iwuri, ati pe gbogbo wa ni o ni itara pe ẹgbẹ Google Books ti tu awọn data wọnyi jade si gbogbo eniyan (ni otitọ, diẹ ninu awọn iṣẹ ti o wa ni opin ori ori yii nlo data yi). Ṣugbọn, nigbakugba ti o ba ri nkan bi eleyi o yẹ ki o beere: ni pe gbogbo data naa n ṣe ohunkohun? Ṣe wọn ti ṣe iwadi kanna bi data naa ba le de ọdọ Oṣupa ati ki o pada ni ẹẹkan? Kini ti o ba jẹ pe data le de ọdọ oke Everest tabi oke ile iṣọ Eiffel?

Ni idi eyi, iwadi wọn, ni otitọ, ni diẹ ninu awọn awari ti o nilo ikun ọrọ nla kan ni igba pipẹ. Fun apẹẹrẹ, ohun kan ti wọn ṣawari jẹ iṣafihan ti ilo ọrọ, paapaa iyipada ninu oṣuwọn ti idibajẹ agbabajẹ alaibamu. Niwon diẹ ninu awọn ọrọ-ọrọ alailẹṣẹ jẹ ohun ti o ṣọwọn, iye nla ti data nilo lati wa iyipada lori akoko. Ni ọpọlọpọ igba, sibẹsibẹ, awọn oluwadi n dabi pe wọn ṣe itọju iwọn ti orisun data nla bi opin - "wo iye data ti mo le ṣawari" -aati ju ọna lọ si diẹ ninu awọn ohun ijinle sayensi pataki.

Ni iriri mi, iwadi awọn iṣẹlẹ to ṣe pataki jẹ ọkan ninu awọn ijinlẹ sayensi mẹta ti pari pe awọn akopọ ti o pọju lati ṣeki. Ẹkeji ni iwadi ti iṣeduro, bi a ṣe le ṣe apejuwe nipasẹ iwadi nipa Raj Chetty ati awọn alabaṣiṣẹpọ (2014) lori iṣowo arin-ajo ni Amẹrika. Ni igba atijọ, ọpọlọpọ awọn oluwadi ti kọ ẹkọ nipa iṣeduro awujọpọ nipa lilo awọn abajade aye ti awọn obi ati awọn ọmọde. Iwadii ti o ni ibamu lati iwe-iwe yii ni pe awọn obi ti o ni imọran ti ni awọn ọmọde ni imọran, ṣugbọn agbara ti ibasepọ yii yatọ ni akoko ati ni gbogbo awọn orilẹ-ede (Hout and DiPrete 2006) . Laipẹ diẹ, sibẹsibẹ, Chetty ati awọn ẹlẹgbẹ wa ni anfani lati lo awọn igbasilẹ igbasilẹ lati awọn eniyan 40 milionu lati ṣe iṣiro pe o wa ni isodipupo ninu ilọsiwaju laarin awọn agbegbe ni United States (nọmba 2.1). Wọn ti ri, fun apẹẹrẹ, pe iṣeeṣe ti ọmọde de ọdọ ti o tobi julọ ti pinpin oya ti orilẹ-ede ti o bẹrẹ lati inu ẹbi kan ni isalẹ quintile jẹ nipa 13% ni San Jose, California, ṣugbọn nikan nipa 4% ni Charlotte, North Carolina. Ti o ba wo nọmba ori 2.1 fun akoko kan, o le bẹrẹ si ni idiyele idi ti idiyele ti ilọsiwaju jẹ ga julọ ni awọn aaye ju awọn omiiran lọ. Chetty ati awọn ẹlẹgbẹ ni o ni ibeere kanna, wọn si ri pe awọn agbegbe ti o gaju ni o kere si ipinlẹ ibugbe, kere si alaiṣe owo-owo, ile-iwe ti o dara julọ, ti o pọju alajọṣepọ, ati iduroṣinṣin ti o dara julọ. Dajudaju, awọn atunṣe wọnyi ko ṣe afihan pe awọn nkan wọnyi fa idiyele giga, ṣugbọn wọn ṣe imọran awọn ilana ti o ṣee ṣe ti a le ṣawari ni iṣẹ siwaju sii, eyiti o jẹ ohun ti Chetty ati awọn ẹlẹgbẹ ti ṣe ni iṣẹ to tẹle. Akiyesi bi iwọn ti data ṣe pataki julọ ninu iṣẹ yii. Ti Chetty ati awọn ẹlẹgbẹ ti lo awọn igbasilẹ igbasilẹ ti awọn ẹgbẹẹdọgbọn eniyan ju 40 million lọ, wọn kì ba ti le ṣe idaniloju isodipupo agbegbe ati pe wọn kii yoo ni anfani lati ṣe iwadi ni atẹle lati gbiyanju lati ṣe afihan awọn ilana ti o ṣẹda iyatọ yii.

Atọka 2.1: Awọn iṣiro fun awọn ayanmọ ọmọ kan to sunmọ 20% ti pinpin owo oya fun awọn obi ni isalẹ 20% (Chetty et al 2014). Awọn idiyele ipele agbegbe, eyiti o fi han hétérogeneity, ti o ni imọran si awọn ibeere ti o ṣe pataki ati ti o ṣe pataki ti ko ṣe dide lati ipolowo orilẹ-ede kan nikan. Awọn idiyele agbegbe agbegbe wọnyi ni o ṣee ṣe ni apakan nitori awọn oluwadi nlo orisun nla data: awọn igbasilẹ ori-iwe awọn eniyan 40 milionu. Ti a ṣẹda lati inu data wa ni http://www.equality-of-opportunity.org/.

Atọka 2.1: Awọn iṣiro fun awọn ayanmọ ọmọ kan to sunmọ 20% ti pinpin owo oya fun awọn obi ni isalẹ 20% (Chetty et al. 2014) . Awọn idiyele ipele agbegbe, eyiti o fi han hétérogeneity, ti o ni imọran si awọn ibeere ti o ṣe pataki ati ti o ṣe pataki ti ko ṣe dide lati ipolowo orilẹ-ede kan nikan. Awọn idiyele agbegbe agbegbe wọnyi ni o ṣee ṣe ni apakan nitori awọn oluwadi nlo orisun nla data: awọn igbasilẹ ori-iwe awọn eniyan 40 milionu. Ti a ṣẹda lati inu data wa ni http://www.equality-of-opportunity.org/.

Nigbamii, ni afikun si awọn iṣẹlẹ iṣẹlẹ to ṣe pataki ati awọn ẹkọ ti aṣekọra, awọn akopọ ti o tun jẹ ki awọn oluwadi ṣii iyatọ kekere. Ni otitọ, ọpọlọpọ ninu idojukọ lori data nla ni ile-iṣẹ jẹ nipa awọn iyatọ kekere wọnyi: daawari iyasọ iyatọ laarin iwọn 1% ati 1,1% awọn oṣuwọn-nipasẹ awọn ipolongo le ṣe itumọ sinu awọn milionu dọla ni afikun owo-wiwọle. Ni awọn eto ijinle sayensi, sibẹsibẹ, awọn iyatọ kekere bẹ le ṣe pataki pataki, paapaa bi wọn ba ṣe pataki (Prentice and Miller 1992) . Ṣugbọn, ninu awọn eto imulo eto imulo, wọn le di pataki nigbati wọn ba wo ni apapọ. Fun apẹẹrẹ, ti o ba wa awọn ilọsiwaju ilera ilera gbogbo eniyan ati pe ọkan jẹ diẹ ni ilọsiwaju diẹ sii ju ti ẹlomiiran lọ, lẹhinna gbigba igbadun ti o munadoko julọ le pari igbala awọn ẹgbẹrun awọn igbesi aye.

Biotilejepe bigness jẹ gbogbo ohun-ini ti o dara nigba ti o lo ni ọna to tọ, Mo ti woye pe o le ma ṣe amọna si aṣiṣe ti o ṣe pataki. Fun idi kan, o jẹ pe o jẹ ki awọn oluwadi ṣawari bi wọn ti ṣe ipilẹ data wọn. Nigba ti bigness ṣe dinku iwulo lati ṣe aibalẹ nipa aṣiṣe aṣiṣe, o mu ki o ṣe aibalẹ nipa awọn aṣiṣe eto aifọwọyi, awọn aṣiṣe aṣiṣe ti emi yoo ṣe apejuwe ni isalẹ ti o dide lati awọn aiṣedede ni bi a ṣe da awọn data. Fun apẹrẹ, ninu iṣẹ akanṣe kan emi yoo ṣe apejuwe nigbamii ni ori yii, awọn oluwadi lo awọn ifiranṣẹ ti a ṣẹṣẹ ni Ọjọ Kẹsán 11, 2001 lati gbe aago igbiyanju ti o ga julọ ti iṣesi si apanilaya kolu (Back, Küfner, and Egloff 2010) . Nitori awọn oluwadi ni ọpọlọpọ awọn ifiranṣẹ, wọn ko nilo lati ṣe aniyan boya boya awọn ilana ti wọn ṣe akiyesi-fifun ibinu ni akoko ọjọ-le ṣe alaye nipasẹ iyipada ti o yatọ. Ọpọ data ti o wa ati apẹrẹ jẹ kedere pe gbogbo awọn igbeyewo iṣiro iṣiro ṣe afihan pe eyi jẹ apẹrẹ gidi kan. Ṣugbọn, awọn igbeyewo iṣiro yii ko mọ bi a ṣe da data naa. Ni otitọ, o wa ni pe ọpọlọpọ awọn apẹẹrẹ ni o jẹ ti o jẹ ti o jẹ ti botini kan ti o n ṣe awari awọn ifiranṣẹ ti ko ni asan ni gbogbo ọjọ. Yiyọ botini yii ṣubu patapata diẹ ninu awọn awari imọran ninu iwe (Pury 2011; Back, Küfner, and Egloff 2011) . Bakannaa, awọn oluwadi ti ko ronu nipa aṣiṣe aifọwọyi ni idojuko ewu ti lilo awọn akopọ ti o tobi julọ lati ni idiyele to niyeye ti iyeye ti kii ṣe pataki, gẹgẹbi akoonu ẹdun ti awọn ifiranṣẹ ti ko ni asan ti a ṣe pẹlu botini onibara.

Ni ipari, awọn akọọlẹ pataki kii ṣe opin ninu ara wọn, ṣugbọn wọn le ṣeki awọn iru iwadi kan pẹlu iwadi awọn iṣẹlẹ to ṣe pataki, idiyele ti heterogeneity, ati wiwa ti awọn iyatọ kekere. Awọn akọọlẹ pataki tun dabi lati mu awọn oluwadi kan jade lati ko bii bi wọn ṣe da data wọn, eyi ti o le mu ki wọn ni idiyele to niyeye ti iyeye ti ko ṣe pataki.