2.3.1.1 Велики

Овај превод је креиран од стране рачунара. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

2.3.1.1 Велики

Велики скупови података су средство за постизање циља; они не представљају крај сами по себи.

Први од три добре карактеристике великог података је највише расправљати: ово су велике података. Ови извори података могу бити велики на три различита начина: Многи људи, доста информација по особи, или много посматрања током времена. Имајући велики скуп података омогућава неке специфичне врсте истраживања мерење хетерогеност, проучавајући ретких догађаја, откривање мале разлике, а што узрочно-последичне процене из података добијених посматрањем. Такође се чини да води до одређене врсте аљкавости.

Прва ствар за коју величина је посебно корисно је удаљавање од просека да процене за специфичне подгрупе. На пример, Гари Кинг, Џенифер Пан Молли Робертс, (2013) вероватноћу да ће друштвени медији поруке у Кини бити цензурисане од стране владе. Само по себи овај просек вероватноћа брисања није од велике помоћи за разумевање зашто је влада цензурише неке поруке али не у другима. Али, пошто је њихов скуп података даје 11 милиона поруке, Кинг и колеге производи процене за вероватноћу цензуре за радна мјеста на 85 различитих категорија (нпр, порнографија, Тибету, а саобраћај у Пекингу). Упоређивањем вероватноћу цензуре за радна мјеста у различитим категоријама, они су у стању да разумеју више о томе како и зашто је влада цензурише одређене врсте порука. Са 11 хиљада постова (уместо 11 милиона поруке), они не би били у стању да произведе ове процене категорије специфичне.

Друго, величина је посебно користан за студира ретких догађаја. На пример, Гоел и сарадници (2015) да проучава различите начине на које твитови могу ићи вирусне. Јер велике каскаде поновног твитова су изузетно ретке око један у 3000-им је било потребно да уче више од милијарду твитова како би пронашли довољно велике каскаде за њихову анализу.

Треће, велики скупови података омогућити истраживачима да открију мале разлике. У ствари, много фокуса на великим података у индустрији је о тим малим разликама: поуздано откривање разлику између стопе клик-кроз 1% и 1,1% на оглас може прерасти у милионима долара у екстра приход. У неким научним поставкама, те мале разлике не би било посебно важно (чак и ако су статистички значајне). Али, у неким срединама политика, те мале разлике могу постати важни када се посматра збирно. На пример, ако постоје два јавна здравствене интервенције и један је мало ефикаснији од других, а затим прелазак на више ефикасне интервенције могао завршити уштеде хиљаде додатних живота.

Коначно, велики скупови података значајно повећати нашу способност да се узрочно-последичне процене из података добијених посматрањем. Иако је велики скупови података не фундаментално променити проблеме са прављењем узрочно закључак из података добијених посматрањем, одговарају и природни експерименти-две технике које су истраживачи развили за израду узрочно-последичне штете из посматрања података-како велике користи од великих скупова података. Ја ћу објаснити и да илуструје ту тврдњу у више детаља касније у овом поглављу када сам описати истраживачких стратегија.

Иако БИГНЕСС је генерално добра имовина када правилно користи, приметио сам да БИГНЕСС обично доводи до концептуалне грешке. Из неког разлога, БИГНЕСС изгледа да води истраживаче да игнорише како је њихов податке добијене. Док БИГНЕСС не смањује потребу за бригу о случајној грешци, то је заправо повећава потребе да бринете о системских грешака, врста грешке које ћу описују у више испод које настају од пристрасности у томе како се подаци створио и прикупљају. У малом података, како случајна грешка и систематска грешка може бити важно, али у великој скуп података случајна грешка се може просек далеко и систематска грешка доминира. Истраживачи који не размишљају о системске грешке ће завршити користећи своје велике скупове података да се добије прецизну процену о погрешну ствар; они ће бити тачно нетачно (McFarland and McFarland 2015) .