2.3.1 Велики

Велики скупови података су средство за постизање циља; они не представљају крај сами по себи.

Најчешће разматрана карактеристика великих извора података је да су БИГ. На пример, многи радови разматрају - а понекад и хвале - о томе колико података анализирају. На примјер, рад објављен у Сциенце о проучавању трендова кориштења ријечи у корпусу Гоогле књига укључивао је сљедеће (Michel et al. 2011) :

"[Наш] корпус садржи преко 500 милијарди речи, на енглеском (361 милијарди), француском (45 милијарди), шпанском (45 милијарди), немачком (37 милијарди), кинеском (13 милијарди), руском (35 милијарди) и хебрејском (2 милијарде). Најстарији радови објављени су у 1500-им. Ране деценије представљају само неколико књига годишње, које обухватају неколико стотина хиљада речи. До 1800, корпус расте до 98 милиона речи годишње; до 1900, 1,8 милијарди; а за 2000, 11 милијарди. Корпус не може прочитати човек. Ако сте покушали да читате само уносе на енглеском језику из само 2000. године, у разумном темпу од 200 речи / мин, без прекида за храну или спавање, требало би 80 година. Низ слова је 1000 пута дужи од људског генома: Ако сте га написали у праву линију, доћи ће до Месеца и назад 10 пута више. "

Скала ових података несумњиво је импресивна и сви смо срећни што је тим Гоогле Боокс објавио ове податке јавности (уствари, неке од активности на крају овог поглавља користе ове податке). Али, кад год видите нешто овако, требало би да питате: да ли сви ти подаци стварно раде нешто? Да ли су могли урадити исто истраживање ако би подаци могли доћи до Месеца и назад само једном? Шта ако подаци могу стићи само на врх Евереста или на врх Ајфеловог торња?

У овом случају, њихово истраживање заправо има неке налазе који захтевају огроман корпус речи током дужег временског периода. На пример, једна ствар коју истражују је еволуција граматике, а посебно промене у конвергацији неправилних глагола. Пошто су неки нерегуларни глаголи прилично ретки, потребна је велика количина података за откривање промена током времена. Међутим, претерано, чини се, истраживачи третирају величину великог извора података као крајњи "изглед колико података могу да крижу" - него нешто од значаја за неки важнији научни циљ.

По мом искуству, истраживање ријетких догађаја је један од три специфична научна краја на којима велики скупови података често омогућавају. Друга је истраживање хетерогености, што може бити илустровано студијом Рај Четија и колега (2014) о друштвеној мобилности у Сједињеним Државама. У прошлости су многи истраживачи проучавали друштвену покретљивост поређењем исхода живота родитеља и деце. Константан налаз из ове литературе је да предностни родитељи имају тенденцију да имају предности деце, али снага овог односа варира с временом и по земљама (Hout and DiPrete 2006) . Међутим, недавно су Чети и колеге могли да користе пореске податке од 40 милиона људи како би проценили хетерогеност у међугенерацијској мобилности у регионима у Сједињеним Државама (слика 2.1). Пронашли су, на примјер, вјероватноћу да дијете достигне највећи квинтил од националне дистрибуције прихода, почевши од породице у доњем квинтилу, око 13% у Сан Јосе, Калифорнија, али само око 4% у Цхарлотте, у Сјеверној Каролини. Ако погледате слику 2.1 за тренутак, можда ћете започети да се питате зашто је међугенерацијска мобилност већа у неким местима од других. Чети и колеге имали су потпуно исто питање, а утврдили су да подручја високе мобилности имају мање резидентне сегрегације, мање неједнакости у приходима, боље основне школе, већи друштвени капитал и већу породичну стабилност. Наравно, само ове корелације не показују да ови фактори проузрокују већу покретљивост, али они сугеришу могуће механизме који се могу истражити у даљем раду, што је управо оно што су Цхетти и колеге урадили у наредном раду. Обратите пажњу на то колико је величина података заиста важна у овом пројекту. Ако су Чети и колеге користили порезну евиденцију од 40 хиљада људи умјесто 40 милиона, не би могли процијенити регионалну хетерогеност и никада не би могли да врше накнадна истраживања како би покушали идентификовати механизме који стварају ову варијацију.

Графикон 2.1: Процене шансе дјетета да достижу највише 20% дистрибуције дохотка дато родитељима у доњем 20% (Цхетти ет ал., 2014). Процјене на регионалном нивоу, које показују хетерогеност, природно доводе до занимљивих и важних питања која не произилазе из јединствене процјене на националном нивоу. Ове процјене на регионалном нивоу омогућиле су дијелом зато што истраживачи користе велики велики извор података: порезну евиденцију од 40 милиона људи. Креиран је из података доступних на хттп://ввв.екуалити-оф-оппортунити.орг/.

Графикон 2.1: Процене шансе дјетета да достижу највише 20% дистрибуције дохотка дато родитељима у доњем 20% (Chetty et al. 2014) . Процјене на регионалном нивоу, које показују хетерогеност, природно доводе до занимљивих и важних питања која не произилазе из јединствене процјене на националном нивоу. Ове процјене на регионалном нивоу омогућиле су дијелом зато што истраживачи користе велики велики извор података: порезну евиденцију од 40 милиона људи. Креиран је из података доступних на хттп://ввв.екуалити-оф-оппортунити.орг/.

Коначно, поред проучавања ретких догађаја и проучавања хетерогености, велики скупови података такође омогућавају истраживачима да открију мале разлике. Заправо, велики део фокуса на великим подацима у индустрији јесте о овим малим разликама: поуздано откривање разлика између 1% и 1,1% кликова на оглас може се претворити у милионе долара у екстра приход. У неким научним установама, међутим, такве мале разлике можда нису нарочито важне, чак и ако су статистички значајне (Prentice and Miller 1992) . Али, у неким поставкама политике, они могу постати важни када се посматрају заједно. На примјер, ако постоје двије интервенције јавног здравства, а једна је нешто дјелотворнија од друге, онда би одабир ефикасније интервенције могао на крају спасити хиљаде додатних живота.

Иако је бигнесс обично добра особина када се исправно користи, приметио сам да то понекад може довести до концептуалне грешке. Из неког разлога, изгледа да бигнесс доводи истраживаче да игноришу начин на који су њихови подаци генерисани. Иако бигнесс смањује потребу за бригом о случајној грешци, то уствари повећава потребу за бригом о систематским грешкама, врстама грешака које ћу описати у наставку који произилазе из пристрасности у начину на који су подаци креирани. На пример, у пројекту који ћу описати касније у овом поглављу, истраживачи су користили поруке настале 11. септембра 2001. године како би произвеле емотивну временску линију високе резолуције реакције на терористички напад (Back, Küfner, and Egloff 2010) . Будући да су истраживачи имали велики број порука, нису требали бринути о томе да ли обрасци које су посматрали - повећавајући бес у току дана - могли се објаснити случајним варијацијама. Било је толико података и образац је био толико јасан да су сви статистички статистички тестови показали да је то био прави образац. Али, ови статистички тестови нису били упознати са начином на који су подаци створени. Заправо, испоставило се да су многи обрасци били приписивани једном боту који је током дана створио све више бесмислених порука. Уклањање овог бот-а потпуно је уништило неке од кључних налаза у раду (Pury 2011; Back, Küfner, and Egloff 2011) . Једноставно, истраживачи који не размишљају о систематичној грешци суочавају се са ризиком коришћења својих великих скупова података како би добили прецизну процену непомичне количине, као што је емоционални садржај бесмислених порука произведених аутоматизованим ботом.

У закључку, велики скупови података нису сам по себи циљ, али могу омогућити одређене врсте истраживања укључујући проучавање ретких догађаја, процјену хетерогености и откривање малих разлика. Изгледа да велики скупови података доводе до тога да неки истраживачи игноришу начин креирања њихових података, што их може довести до прецизне процене небитне количине.