2.3.1 Биг

Големи бази на податоци се средство за крај; тие не се цел сама по себе.

Најшироко дискутираната карактеристика на големите извори на податоци е дека тие се големи. Многу трудови, на пример, почнуваат со дискусија - а понекогаш и со фалба - за тоа колку податоци анализираат. На пример, трудот објавен во Науката за проучување на трендовите за зборување на зборовите во корпусот на Google Книги вклучуваше следново (Michel et al. 2011) :

"Нашиот корпус содржи над 500 милијарди зборови, на англиски (361 милијарди), француски (45 милијарди), шпански (45 милијарди), германски (37 милијарди), кинески (13 милијарди), руски (35 милијарди) и хебрејски (2 милијарди евра). Најстарите дела биле објавени во 1500-тите години. Раните децении се претставени со само неколку книги годишно, кои содржат неколку стотици илјади зборови. До 1800 година, корпусот расте на 98 милиони зборови годишно; до 1900 година, 1,8 милијарди; и до 2000 година, 11 милијарди. Корпусот не може да го прочита човекот. Ако сте се обиделе само да читате само записи на англиски јазик од 2000 година само со разумно темпо од 200 зборови / мин, без прекини за храна или сон, тоа би требало да трае 80 години. Редоследот на буквите е 1000 пати подолг од човечкиот геном: Ако го напишавте во права линија, ќе стигне до Месечината и ќе се врати 10 пати повеќе. "

Скалата на овие податоци е несомнено импресивна, и сите сме среќни што тимот на Google Книги ги објави овие податоци за јавноста (всушност, некои од активностите на крајот од ова поглавје ги користат овие податоци). Но, секогаш кога ќе видите нешто како ова, треба да се запрашате: дали сите тие податоци навистина прават нешто? Дали би можеле да го направат истото истражување ако податоците може да стигнат до Месечината и назад само еднаш? Што ако податоците може да стигнат само до врвот на Монт Еверест или на врвот на Ајфеловата кула?

Во овој случај, нивните истражувања, всушност, имаат некои наоди кои бараат огромен корпус на зборови во текот на подолг временски период. На пример, едно нешто што го истражуваат е еволуцијата на граматиката, особено промените во стапката на неправилна глаголна конјугација. Бидејќи некои нерегуларни глаголи се доста ретки, голем број на податоци треба да ги детектираат промените со текот на времето. Меѓутоа, премногу често, истражувачите се чини дека ја третираат големината на големиот извор на податоци како крај - "изгледаат колку податоци можам да ги скратам" - повеќе отколку средство за некоја поважна научна цел.

Според моето искуство, проучувањето на ретките настани е еден од трите специфични научни цели што голем број на податоци имаат тенденција да овозможат. Вториот е изучувањето на хетерогеноста, како што може да се илустрира студијата на Рај Четти и колегите (2014) за социјалната мобилност во САД. Во минатото, многу истражувачи ја проучувале социјалната мобилност споредувајќи ги резултатите од животот на родителите и децата. Постојан наод од оваа литература е дека предност родителите имаат тенденција да имаат предност деца, но силата на овој однос варира со текот на времето и низ земјите (Hout and DiPrete 2006) . Меѓутоа, неодамна, Чети и неговите колеги успеаја да ја користат даночната евиденција од 40 милиони луѓе за да ја проценат хетерогеноста во меѓугенерациската мобилност низ регионите во САД (слика 2.1). На пример, тие откриле дека веројатноста детето да достигне највисок квинтил на националната распределба на приходи, почнувајќи од семејството во долниот квинтил е околу 13% во Сан Хозе, Калифорнија, но само околу 4% во Шарлот, Северна Каролина. Ако погледнете на слика 2.1 за момент, може да почнете да се прашувате зошто меѓугенерациската мобилност е повисока во некои места од другите. Четти и колегите го имале истото прашање, и открија дека областите со висока мобилност имаат помалку станбени сегрегации, помалку нееднаквост во приходите, подобри основни училишта, поголем општествен капитал и поголема стабилност на семејството. Се разбира, овие корелации сами по себе не покажуваат дека овие фактори предизвикуваат поголема мобилност, но тие сугерираат можни механизми кои можат да бидат истражени во понатамошната работа, што е токму она што Чети и неговите колеги го направиле во понатамошната работа. Забележете како големината на податоците е навистина важна во овој проект. Ако Чети и неговите колеги ја искористиле даночната евиденција од 40 илјади луѓе наместо 40 милиони, тие не би биле во можност да ја проценат регионалната хетерогеност и никогаш не би биле во можност да направат понатамошни истражувања за да се обидат да ги идентификуваат механизмите што ја создаваат оваа варијација.

Слика 2.1: Проценки за шансите на детето да стигне до првите 20% од распределбата на приходите што им се дава на родителите во долниот 20% (Chetty et al., 2014). Проценките на регионално ниво, кои покажуваат хетерогеност, природно доведуваат до интересни и важни прашања кои не произлегуваат од единствена проценка на национално ниво. Овие проценки на регионално ниво беа овозможени делумно затоа што истражувачите користеа голем извор на податоци: даночна евиденција од 40 милиони луѓе. Создаден од податоците достапни на http://www.equality-of-opportunity.org/.

Слика 2.1: Проценки за шансите на детето да стигне до првите 20% од распределбата на приходите што им се дава на родителите во долниот 20% (Chetty et al. 2014) . Проценките на регионално ниво, кои покажуваат хетерогеност, природно доведуваат до интересни и важни прашања кои не произлегуваат од единствена проценка на национално ниво. Овие проценки на регионално ниво беа овозможени делумно затоа што истражувачите користеа голем извор на податоци: даночна евиденција од 40 милиони луѓе. Создаден од податоците достапни на http://www.equality-of-opportunity.org/.

Конечно, покрај студирањето на ретки настани и проучувањето на хетерогеноста, големите сетови на податоци, исто така, им овозможуваат на истражувачите да детектираат мали разлики. Всушност, голем дел од фокусот на големите податоци во индустријата е во врска со овие мали разлики: сигурно откривање на разликата помеѓу 1% и 1,1% кликнете-преку стапки на рекламата може да се претвори во милиони долари во екстра приходи. Во некои научни средини, сепак, таквите мали разлики можеби не се особено важни, дури и ако тие се статистички значајни (Prentice and Miller 1992) . Но, во некои поставувања на политиката, тие можат да станат важни кога се гледаат заедно. На пример, ако постојат две јавни здравствени интервенции и еден е малку поефикасен од другиот, тогаш изборот на поефективна интервенција би можел да заштеди илјадници дополнителни животи.

Иако bigness е обично добар имот кога се користи правилно, јас сум забележал дека тоа понекогаш може да доведе до концептуална грешка. Поради некоја причина, се чини дека бујноста ги наведува истражувачите да игнорираат како се генерирани нивните податоци. Иако bigness ја намалува потребата да се грижите за случајна грешка, всушност ја зголемува потребата да се грижите за систематски грешки, видовите на грешки што ќе ги опишам подолу, кои произлегуваат од предрасудите за тоа како се создаваат податоците. На пример, во еден проект што ќе го опишам подоцна во ова поглавје, истражувачите користеа пораки генерирани на 11 септември 2001 за да произведат емоционална временска линија за реакција на терористичкиот напад со висока резолуција (Back, Küfner, and Egloff 2010) . Бидејќи истражувачите имале голем број на пораки, тие навистина не требаше да се грижат за тоа дали обрасците што ги набљудуваа - зголемувајќи го лутината во текот на денот - може да се објаснат со случајни варијации. Имаше толку многу податоци и моделот беше толку јасен што сите статистички статистички тестови сугерираа дека ова е вистински модел. Но, овие статистички тестови беа неуки како се создадоа податоците. Всушност, се покажа дека многу од моделите се припишуваат на еден бот што генерира се повеќе и повеќе бесмислени пораки во текот на денот. Отстранувањето на овој бот целосно уништи некои од клучните наоди во весникот (Pury 2011; Back, Küfner, and Egloff 2011) . Сосема едноставно, истражувачите кои не размислуваат за систематска грешка се соочуваат со ризик да ги користат нивните големи множества на податоци за да добијат прецизна проценка за неважно количество, како што е емоционалната содржина на бесмислени пораки произведени од автоматски бот.

Како заклучок, големите сетови на податоци не се цел сами по себе, но можат да овозможат одредени видови истражувања, вклучително и изучување на ретки настани, проценка на хетерогеноста и откривање на мали разлики. Големите бази на податоци, исто така, изгледа дека доведоа до тоа некои истражувачи да ги игнорираат начините на создавање на нивните податоци, што може да доведе до прецизна процена на неважна количина.