2.3.2.2 Недоступний

Дані , що належать компаніям і урядам важко для дослідників , щоб отримати доступ.

У травні 2014 року США Порядок денний національної безпеки відкрили центр обробки даних в сільській місцевості в штаті Юта, який має незручний ім'я, розвідувальне співтовариство всеосяжної національної кібербезпеки Ініціатива центрів обробки даних. Проте, цей центр обробки даних, який прийшов, щоб бути відомим як Центр даних Юти, як повідомляється, вражаючі можливості. В одному доповіді стверджується, що Юта Центр обробки даних може зберігати і обробляти всі форми комунікації, включаючи «повний зміст приватних повідомлень електронної пошти, мобільний телефон дзвінки і Google пошуку, а також всі види надходжень стежки-стоянки персональних даних, туристичні маршрути , книжковий магазин покупки і іншої цифрової `кишеньковий сміття" (Bamford 2012) . На додаток до викликає стурбованість щодо приводу делікатного характеру велика частина інформації , зафіксованої в великих даних, які будуть описані нижче більш, штат Юта Центр обробки даних є крайнім прикладом багатого джерела даних , який недоступний для дослідників. У більш загальному плані, багато джерел великих обсягів даних, які були б корисні для дослідників під контролем і обмежується урядами (наприклад, податкових даних і освітніх даних) і компаній (наприклад, запити до пошукових систем і телефонний дзвінок мета-дані). Таким чином, ці дані не будуть негайно доступні для дослідників в університетах, і більшість з них не буде навіть доступні для дослідників в області урядів або компаній.

З мого досвіду, багато дослідників, засновані в університетах неправильно розуміють джерело цієї неприступністю. Ці дані не є недоступними, тому що люди в компанії і уряду тупі, ледачі або неуважними. Швидше за все, існують серйозні юридичні, технічні, бізнес, і етичні бар'єри, які перешкоджають доступ до даних. Наприклад, деякі угоди терміни-сервісу для веб-сайтів тільки дозволяють дані, які будуть використовуватися співробітниками або для поліпшення обслуговування. Таким чином, деякі форми спільного використання даних може піддати компаніям законних позовів з боку клієнтів. Є також істотні бізнес-ризики для компаній, що беруть участь в обміні даними. Спробуйте уявити собі, як громадськість буде реагувати, якщо персональні дані пошуку випадково просочилася з Google в рамках дослідницького проекту університету. Таке порушення даних, якщо крайній, може бути навіть екзистенціальний ризик для компанії. Таким чином, Google-і більшість великих компаній-дуже схильні до ризику про обмін даними з дослідниками.

Насправді, майже всі, хто знаходиться в такому положенні, щоб забезпечити доступ до великих обсягів даних знає історію про Абдур Чоудхурі. У 2006 році, коли він був керівником досліджень AOL, він навмисно випустив те, що він думав, були анонімними пошукові запити від користувачів AOL 650000 для наукової спільноти. Наскільки я можу сказати, Чоудхурі і дослідники в AOL були хороші наміри, і вони думали, що вони анонімні дані. Але вони були не праві. Це було швидко виявлено , що дані не були настільки ж анонімними , як думали вчені, і журналісти з New York Times були в змозі ідентифікувати людей в наборі даних з легкістю (Barbaro and Zeller Jr 2006) . Після того, як ці проблеми були виявлені, Чоудхурі видалені дані з веб-сайту AOL, але це було занадто пізно. Дані були повторно відправив на інших сайтах, і це, ймовірно, як і раніше будуть доступні, коли ви читаєте цю книгу. З - за його спроби обмінюватися даними з науковим співтовариством, Чоудхурі був звільнений, і технічний директор компанії AOL, подав у відставку (Hafner 2006) . Як показує цей приклад, вигоди для конкретних осіб всередині компаній, щоб полегшити доступ до даних досить малі і найгірший сценарій жахливий.

Дослідження, однак, може отримати доступ до даних, які недоступні для широкого загалу. Уряду мають процедури, які дослідники можуть слідувати, щоб подати заявку на доступ, а також пізніше в цій главі приклади показують, дослідники можуть іноді отримати доступ до корпоративних даних. Наприклад, Einav et al. (2015) і Einav et al. (2015) в партнерстві з дослідником на eBay для вивчення цифрових слідів від інтернет - аукціонах. Я більше про дослідження, які прийшли з цієї співпраці пізніше в розділі (розділ 2.4.3.2) говорити, але я говорити про це зараз, тому що було все чотири з інгредієнтів, які я бачу в успішних партнерських відносин: науковий інтерес, здатності дослідника, компанія інтерес, і можливості компанії. Іншими словами, ейнаїм і його колеги були зацікавлені і здатні вивчати інтернет-аукціонах. І, eBay також. Проте, я бачив багато можливу співпрацю зазнають невдачі, тому як дослідник або компанія не вистачає одного з цих інгредієнтів.

Навіть якщо ви в змозі розвивати партнерські відносини з бізнесом, однак, є деякі мінуси для вас. По-перше, питання, які ви можете задати за даними з ймовірністю бути обмежена; компанії навряд чи дозволять дослідження, які могли б змусити їх виглядати погано. По-друге, ви, ймовірно, не зможе обмінюватися даними з іншими дослідниками, а це значить, що інші дослідники не зможуть перевірити і розширити свої результати. Крім того, ці партнерські відносини можуть створити хоча б видимість конфлікту інтересів, де люди могли б думати, що ваші результати були під впливом ваших партнерських відносин. Всі ці мінуси можуть бути вирішені, але важливо, щоб було ясно, що робота з даними, які не доступні для всіх були як плюси і мінуси.

Коротше кажучи, багато великих даних недоступна для дослідників. Є серйозні юридичні, технічні, бізнес, і етичні бар'єри, які перешкоджають доступ до даних, і ці бар'єри не виходитимуть. Національні уряди зазвичай встановлюють процедури для включення доступу до даних, але цей процес може бути більш спеціальної на державному і місцевому рівнях. Крім того, в деяких випадках, дослідники можуть співпрацювати з компаніями, щоб отримати доступ до даних, але це може створити безліч проблем для дослідників.