2.3.1.1 Big

Големи масиви от данни, са средство за постигане на целта; те не са самоцел.

Първият от трите добри характеристики на голям данни е най-дискутираното: това са големи данни. Тези източници на данни могат да бъдат големи по три различни начина: на много хора, много информация на човек, или много наблюдения с течение на времето. Наличието на голям набор от данни дава възможност на някои специфични видове изследвания за измерване на хетерогенност, изучаване на редки събития, откриване на малки разлики, и вземане на причинни оценки от наблюдателни данни. Също така изглежда, да доведе до конкретен вид на небрежност.

Първото нещо, за което размер е особено полезно, се движи отвъд средни да се правят приблизителни оценки за специфични подгрупи. Например, Гари Кинг, Дженифър Пан, и Моли Робъртс (2013) измерва вероятността, че социалните медии публикации в Китай ще бъдат цензурирани от правителството. Сама по себе си тази средна вероятност за заличаване не е много полезно за разбиране защо правителството цензурира някои постове, а други не. Но, тъй като техният набор от данни включва 11 милиона съобщения, King и колеги също произведени оценки за вероятността за цензура за публикации в 85 отделни категории (например, порнография, Тибет, и движение в Пекин). Чрез сравняване на вероятността за цензура за постове в различни категории, те са в състояние да разберат повече за това как и защо правителството цензурира някои видове съобщения. С 11 хиляди мнения (а не 11 милиона мнения), те не биха били в състояние да произвежда тези от категория специфични оценки.

Второ, размер е особено полезен за учи на редки събития. Например, Goel и колеги (2015) искат да изучават различните начини, по които туитове могат да отидат вирусни. Заради големите каскади от повторни туитове са изключително рядко-около един в 3000-те, необходими за проучване на повече от един милиард туитове, за да се намерят достатъчно големи каскади за техния анализ.

Трето, големи масиви от данни позволяват на изследователите да открият малки различия. В действителност, много от фокуса на големи данни в промишлеността е за тези малки разлики: надеждно откриване на разликата между 1% и 1,1% честота на кликване върху реклама може да се трансформира в милиони долари в допълнителни приходи. В някои научни настройки, тези малки разлики не могат да бъдат конкретни важно (дори ако те са статистически значими). Но, в някои настройки на политиката, такива малки разлики могат да се превърнат във важни, когато се гледа в агрегат. Например, ако има две обществени здравни интервенции и един е малко по-ефективен от друга, след това преминаване към по-ефективна намеса може да свърши спестяване на хиляди допълнителни животи.

Накрая, големи набори от данни значително се увеличи способността ни да причинни оценки от наблюдателни данни. Въпреки че големи масиви от данни не променят фундаментално проблемите с вземане на причинно-следствена извод от наблюдателни данни, съвпадение и физически експерименти-две техники, които изследователите са разработили за вземане на причинни претенции от наблюдателни данни, както в голяма степен да се възползват от големи масиви от данни. Ще обясня и илюстрира това твърдение по-подробно по-нататък в тази глава, когато се описват стратегии за научни изследвания.

Въпреки извисяване обикновено е добър имот, когато се използва правилно, съм забелязал, че извисяване често води до по-концептуална грешка. По някаква причина, извисяване изглежда да доведе изследователите да игнорира как се генерира им данни. Докато извисяване наистина намалява необходимостта да се притеснявате за случайна грешка, тя всъщност увеличава необходимостта да се притеснявате за системни грешки, видовете грешки, които ще описват в по-долу, които възникват от пристрастия в това как са създадени и събрани данни. В един малък набор от данни, както случайна грешка и систематична грешка може да бъде важно, но в по-голям набор от данни случайна грешка е да бъде средно разстояние и систематична грешка доминира. Изследователите, които не мислят за систематична грешка в крайна сметка ще се използват техните големи масиви от данни, за да получите по-точна оценка на нещо погрешно; те ще бъдат точно неточна (McFarland and McFarland 2015) .