2.3.1.1 Вялікі

Вялікія наборы дадзеных з'яўляюцца сродкам для дасягнення мэты; яны не з'яўляюцца самамэтай.

Першы з трох добрых характарыстык вялікіх аб'ёмаў дадзеных з'яўляецца найбольш абмяркоўваецца: гэта вялікія дадзеныя. Гэтыя крыніцы дадзеных могуць быць вялікімі трыма рознымі спосабамі: многія людзі, шмат інфармацыі на чалавека, або шмат назіранняў з цягам часу. Маючы вялікі набор дадзеных дазваляе некаторыя спецыфічныя тыпы даследаванняў для вымярэння гетэрагеннасць, вывучэнне рэдкіх падзей, выяўлення невялікіх адрозненняў, а таксама робіць прычынныя ацэнкі па дадзеных назіранняў. Акрамя таго, здаецца, прывядзе да вызначанага тыпу разгільдзяйства.

Першае, для якіх памер асабліва карысны выходзяць за рамкі сярэдніх, каб зрабіць ацэнкі для канкрэтных падгруп. Напрыклад, Гэры Кінг, Джэніфер Пан, і Молі Робертс (2013) вымяраецца верагоднасць таго, што паведамленні сацыяльных медыя ў Кітаі будуць падвергнуты цэнзуры з боку ўрада. Само па сабе гэта сярэдняя верагоднасць выдалення не вельмі карысна для разумення таго, чаму ўрад цэнзуруе некаторыя паведамленні, але не іншыя. Але, паколькі іх набор дадзеных ўключаны 11 мільёнаў пастоў, Кінг і яго калегі таксама атрыманы ацэнкі для верагоднасці цэнзуры ў дачыненні да пасад на 85 асобных катэгорый (напрыклад, парнаграфія, Тыбет, і трафік у Пекіне). Параўноўваючы верагоднасць цэнзуры на пасады ў розных катэгорыях, яны былі ў стане зразумець больш аб тым, як і чаму ўрад цэнзуруе пэўныя тыпы паведамленняў. З 11 тысячаў пасадаў (а не 11 мільёнаў паведамленняў), то яны не змаглі б вырабляць гэтыя катэгорыі канкрэтных ацэнак.

Па-другое, памер асабліва карысны для вывучае рэдкіх падзей. Напрыклад, Гоел і яго калегі (2015) хацелі вывучыць розныя спосабы , якімі твіты могуць пайсці вірусныя. З-за вялікіх каскады паўторных твітаў вельмі рэдкія, каля ў 3000-ім трэба было вывучыць больш за мільярд твітаў, каб знайсці дастаткова вялікія каскады для іх аналізу.

Па-трэцяе, вялікія наборы дадзеных дазваляюць даследчыкам выявіць невялікія адрозненні. На самай справе, большая частка увагі вялікіх аб'ёмаў дадзеных у галіны аб гэтых невялікіх адрозненняў: надзейна выяўляць розніцу паміж 1% і 1,1% лік клікаў па аб'яве можа перавесці на мільёны даляраў у выглядзе дадатковых даходаў. У некаторых навуковых устаноўках, такія невялікія адрозненні могуць быць не асабліва важна (нават калі яны з'яўляюцца статыстычна значнымі). Але, у некаторых параметрах палітыкі, такія невялікія адрозненні могуць стаць важным, калі глядзець у сукупнасці. Напрыклад, калі ёсць два мерапрыемствы ў галіне грамадскага аховы здароўя і адзін некалькі больш эфектыўны, чым іншы, то пераход на больш эфектыўнае ўмяшанне можа ў канчатковым выніку выратаваць тысячы дадатковых жыццяў.

Нарэшце, вялікія наборы дадзеных значна павялічваюць нашу здольнасць рабіць прычынныя ацэнкі па дадзеных назіранняў. Хаця вялікія наборы дадзеных не карэнным чынам змяніць праблемы са стварэннем прычынную вывад з дадзеных назіранняў, супастаўлення і натуральныя эксперыменты-два метаду, якія даследчыкі распрацавалі для вырабу прычынных прэтэнзій з боку наглядальных дадзеных, як атрымаць вялікую карысць з вялікіх набораў дадзеных. Я растлумачу, і праілюстраваць гэта зацвярджэнне больш падрабязна далей у гэтым раздзеле, калі я апісваю стратэгіі даследаванняў.

Хоць вялікі бізнэс, як правіла, добрае ўласцівасць пры правільным выкарыстанні, я заўважыў, што вялікі бізнэс звычайна прыводзіць да канцэптуальнай памылкі. Па нейкай прычыне, вялікі бізнэс, здаецца, вядзе даследчыкаў ігнараваць, як ствараўся іх дадзеныя. У той час як вялікі бізнэс сапраўды памяншае неабходнасць турбавацца пра выпадковую памылку, на самай справе павялічвае неабходнасць турбавацца аб сістэматычных памылак, віды памылак , якія я апішу ў больш ніжэй , якія ўзнікаюць з ухілаў у тым , як ствараюцца і сабраныя дадзеныя. У невялікім наборы дадзеных, як выпадковая памылка і сістэматычная памылка можа мець важнае значэнне, але ў вялікім наборы дадзеных выпадковай памылкі можна асерадніць далёка і дамінуе сістэматычная памылка. Даследчыкі, якія не думаюць пра сістэматычнай памылкі будзе ў канчатковым выніку, выкарыстоўваючы свае вялікія наборы дадзеных, каб атрымаць дакладную ацэнку няправільныя рэчы; яны будуць дакладна недакладныя (McFarland and McFarland 2015) .