2.3.2.2 Недоступный

Данные , принадлежащие компаниям и правительствам трудно для исследователей , чтобы получить доступ.

В мае 2014 года США Повестка дня национальной безопасности открыли центр обработки данных в сельской местности в штате Юта, который имеет неудобный имя, разведывательное сообщество всеобъемлющей национальной кибербезопасности Инициатива центров обработки данных. Тем не менее, этот центр обработки данных, который пришел, чтобы быть известным как Центр данных Юты, как сообщается, поразительные возможности. В одном докладе утверждается, что Юта Центр обработки данных может хранить и обрабатывать все формы коммуникации, включая «полное содержание частных сообщений электронной почты, мобильный телефон звонки и Google поиска, а также все виды поступлений тропы-стоянки персональных данных, туристические маршруты , книжный магазин покупки и другой цифровой `карманный мусор" (Bamford 2012) . В дополнение к вызывает обеспокоенность по поводу деликатного характера большая часть информации , зафиксированной в больших данных, которые будут описаны ниже более, штат Юта Центр обработки данных является крайним примером богатого источника данных , который недоступен для исследователей. В более общем плане, многие источники больших объемов данных, которые были бы полезны для исследователей под контролем и ограничивается правительствами (например, налоговых данных и образовательных данных) и компаний (например, запросы к поисковым системам и телефонный звонок мета-данные). Таким образом, эти данные не будут немедленно доступны для исследователей в университетах, и большинство из них не будет даже доступны для исследователей в области правительств или компаний.

По моему опыту, многие исследователи, основанные в университетах неправильно понимают источник этой неприступностью. Эти данные не являются недоступными, потому что люди в компании и правительства тупые, ленивые или невнимательными. Скорее всего, существуют серьезные юридические, технические, бизнес, и этические барьеры, которые препятствуют доступ к данным. Например, некоторые соглашения термины-сервиса для веб-сайтов только позволяют данные, которые будут использоваться сотрудниками или для улучшения обслуживания. Таким образом, некоторые формы совместного использования данных может подвергнуть компаниям законных исков со стороны клиентов. Есть также существенные бизнес-риски для компаний, участвующих в обмене данными. Попробуйте представить себе, как общественность будет реагировать, если персональные данные поиска случайно просочилась из Google в рамках исследовательского проекта университета. Такое нарушение данных, если крайний, может быть даже экзистенциальный риск для компании. Таким образом, Google-и большинство крупных компаний-очень склонны к риску об обмене данными с исследователями.

На самом деле, почти все, кто находится в таком положении, чтобы обеспечить доступ к большим объемам данных знает историю о Абдур Чоудхури. В 2006 году, когда он был руководителем исследований AOL, он намеренно выпустил то, что он думал, были анонимными поисковые запросы от пользователей AOL 650000 для научного сообщества. Насколько я могу сказать, Чоудхури и исследователи в AOL были хорошие намерения, и они думали, что они анонимны данные. Но они были не правы. Это было быстро обнаружено , что данные не были столь же анонимными , как думали ученые, и журналисты из New York Times были в состоянии идентифицировать людей в наборе данных с легкостью (Barbaro and Zeller Jr 2006) . После того, как эти проблемы были обнаружены, Чоудхури удалены данные с веб-сайта AOL, но это было слишком поздно. Данные были повторно отправил на других сайтах, и это, вероятно, по-прежнему будут доступны, когда вы читаете эту книгу. Из - за его попытки обмениваться данными с научным сообществом, Чоудхури был уволен, и технический директор компании AOL, подал в отставку (Hafner 2006) . Как показывает этот пример, выгоды для конкретных лиц внутри компаний, чтобы облегчить доступ к данным довольно малы и наихудший сценарий ужасен.

Исследования, однако, может получить доступ к данным, которые недоступны для широкой публики. Правительства имеют процедуры, которые исследователи могут следовать, чтобы подать заявку на доступ, а также позже в этой главе примеры показывают, исследователи могут иногда получить доступ к корпоративным данным. Например, Einav et al. (2015) и Einav et al. (2015) в партнерстве с исследователем на eBay для изучения цифровых следов от интернет - аукционах. Я больше об исследованиях, которые пришли из этого сотрудничества позже в главе (раздел 2.4.3.2) говорить, но я говорить об этом сейчас, потому что было все четыре из ингредиентов, которые я вижу в успешных партнерских отношений: научный интерес, способности исследователя, компания интерес, и возможности компании. Другими словами, Эйнав и его коллеги были заинтересованы и способны изучать интернет-аукционах. И, eBay также. Тем не менее, я видел много возможное сотрудничество терпят неудачу, потому как исследователь или компания не хватает одного из этих ингредиентов.

Даже если вы в состоянии развивать партнерские отношения с бизнесом, однако, есть некоторые минусы для вас. Во-первых, вопросы, которые вы можете задать с данными с вероятностью быть ограничено; компании вряд ли позволят исследования, которые могли бы заставить их выглядеть плохо. Во-вторых, вы, вероятно, не сможет обмениваться данными с другими исследователями, а это значит, что другие исследователи не смогут проверить и расширить свои результаты. Кроме того, эти партнерские отношения могут создать хотя бы видимость конфликта интересов, где люди могли бы думать, что ваши результаты были под влиянием ваших партнерских отношений. Все эти минусы могут быть решены, но важно, чтобы было ясно, что работа с данными, которые не доступны для всех были как плюсы и минусы.

Короче говоря, много больших данных недоступна для исследователей. Есть серьезные юридические, технические, бизнес, и этические барьеры, которые препятствуют доступ к данным, и эти барьеры не будут уходить. Национальные правительства обычно устанавливают процедуры для включения доступа к данным, но этот процесс может быть более специальной на государственном и местном уровнях. Кроме того, в некоторых случаях, исследователи могут сотрудничать с компаниями, чтобы получить доступ к данным, но это может создать множество проблем для исследователей.