2.3.2.2 Недаступны

Дадзеныя , якія належаць кампаніям і ўрадам цяжка для даследчыкаў , каб атрымаць доступ.

У маі 2014 года ЗША Парадак дня нацыянальнай бяспекі адкрылі цэнтр апрацоўкі дадзеных у сельскай мясцовасці ў штаце Юта, які мае нязручны імя, выведвальнае супольнасць ўсёабдымнай нацыянальнай кібербяспекі Ініцыятыва цэнтраў апрацоўкі дадзеных. Тым не менш, гэты цэнтр апрацоўкі дадзеных, які прыйшоў, каб быць вядомым як Цэнтр дадзеных Юты, як паведамляецца, дзіўныя магчымасці. У адным дакладзе сцвярджаецца, што Юта Цэнтр апрацоўкі дадзеных можа захоўваць і апрацоўваць ўсе формы камунікацыі, у тым ліку «поўнае ўтрыманне прыватных паведамленняў электроннай пошты, мабільны тэлефон званкі і Google пошуку, а таксама ўсе віды паступленняў сцежкі-стаянкі персанальных дадзеных, турыстычныя маршруты , кнігарня пакупкі і іншай лічбавай `кішэнны смецце" (Bamford 2012) . У дадатак да выклікае занепакоенасць па нагоды далікатнага характару вялікая частка інфармацыі , зафіксаванай у вялікіх дадзеных, якія будуць апісаны ніжэй больш, штат Юта Цэнтр апрацоўкі дадзеных з'яўляецца крайнім прыкладам багатага крыніцы дадзеных , якая немагчымая для даследчыкаў. У больш агульным плане, многія крыніцы вялікіх аб'ёмаў дадзеных, якія былі б карысныя для даследчыкаў пад кантролем і абмяжоўваецца урадамі (напрыклад, падатковых дадзеных і адукацыйных дадзеных) і кампаній (напрыклад, запыты да пошукавых сістэмах і тэлефонны званок мета-дадзеныя). Такім чынам, гэтыя звесткі не будуць неадкладна даступныя для даследчыкаў ва універсітэтах, і большасць з іх не будзе нават даступныя для даследчыкаў у галіне урадаў або кампаній.

На маю вопыту, многія даследчыкі, заснаваныя ва універсітэтах няправільна разумеюць крыніцу гэтай непрыступнасць. Гэтыя дадзеныя не з'яўляюцца недаступнымі, таму што людзі ў кампаніі і ўрада тупыя, гультаяватыя ці няўважлівымі. Хутчэй за ўсё, існуюць сур'ёзныя юрыдычныя, тэхнічныя, бізнес, і этычныя бар'еры, якія перашкаджаюць доступ да дадзеных. Напрыклад, некаторыя пагадненні тэрміны-сэрвісу для вэб-сайтаў толькі дазваляюць дадзеныя, якія будуць выкарыстоўвацца супрацоўнікамі або для паляпшэння абслугоўвання. Такім чынам, некаторыя формы сумеснага выкарыстання дадзеных можа падвергнуць кампаніям законных пазоваў з боку кліентаў. Ёсць таксама істотныя бізнэс-рызыкі для кампаній, якія ўдзельнічаюць у абмене дадзенымі. Паспрабуйце ўявіць сабе, як грамадскасць будзе рэагаваць, калі персанальныя дадзеныя пошуку выпадкова пратачылася з Google у рамках даследчага праекта універсітэта. Такое парушэнне дадзеных, калі крайні, можа быць нават экзістэнцыяльны рызыка для кампаніі. Такім чынам, Google-і большасць буйных кампаній-вельмі схільныя да рызыкі аб абмене дадзенымі з даследнікамі.

На самай справе, амаль усе, хто знаходзіцца ў такім становішчы, каб забяспечыць доступ да вялікіх аб'ёмах дадзеных ведае гісторыю пра Абдур Чоудхуры. У 2006 годзе, калі ён быў кіраўніком даследаванняў AOL, ён наўмысна выпусціў тое, што ён думаў, былі ананімнымі пошукавыя запыты ад карыстальнікаў AOL 650000 для навуковай супольнасці. Наколькі я магу сказаць, Чоудхуры і даследчыкі ў AOL былі добрыя намеры, і яны думалі, што яны ананімныя дадзеныя. Але яны былі не правы. Гэта было хутка выяўлена , што дадзеныя не былі гэтак жа ананімнымі , як думалі навукоўцы, і журналісты з New York Times былі ў стане ідэнтыфікаваць людзей у наборы дадзеных з лёгкасцю (Barbaro and Zeller Jr 2006) . Пасля таго, як гэтыя праблемы былі выяўленыя, Чоудхуры выдаленыя дадзеныя з вэб-сайта AOL, але гэта было занадта позна. Дадзеныя былі паўторна адправіў на іншых сайтах, і гэта, верагодна, па-ранейшаму будуць даступныя, калі вы чытаеце гэтую кнігу. З - за яго спробы абменьвацца дадзенымі з навуковай супольнасцю, Чоудхуры быў звольнены, і тэхнічны дырэктар кампаніі AOL, падаў у адстаўку (Hafner 2006) . Як паказвае гэты прыклад, выгады для канкрэтных асоб ўнутры кампаній, каб палегчыць доступ да дадзеных даволі малыя і найгоршы сцэнар жудасны.

Даследаванні, аднак, можа атрымаць доступ да дадзеных, якія недаступныя для шырокай публікі. Ўрада маюць працэдуры, якія даследчыкі могуць прытрымлівацца, каб падаць заяўку на доступ, а таксама пазней у гэтым раздзеле прыклады паказваюць, даследчыкі могуць часам атрымаць доступ да карпаратыўных дадзеных. Напрыклад, Einav et al. (2015) і Einav et al. (2015) у партнёрстве з даследчыкам на eBay для вывучэння лічбавых слядоў ад інтэрнэт - аўкцыёнах. Я больш пра даследаванні, якія прыйшлі з гэтага супрацоўніцтва пазней у главе (раздел 2.4.3.2) казаць, але я казаць пра гэта цяпер, таму што было ўсе чатыры з інгрэдыентаў, якія я бачу ў паспяховых партнёрскіх адносін: навуковы цікавасць, здольнасці даследчыка, кампанія цікавасць, і магчымасці кампаніі. Іншымі словамі, Эйнав і яго калегі былі зацікаўленыя і здольныя вывучаць інтэрнэт-аўкцыёнах. І, eBay таксама. Тым не менш, я бачыў шмат магчымае супрацоўніцтва церпяць няўдачу, таму як даследчык або кампанія не хапае аднаго з гэтых інгрэдыентаў.

Нават калі вы ў стане развіваць партнёрскія адносіны з бізнесам, аднак, ёсць некаторыя мінусы для вас. Па-першае, пытанні, якія вы можаце задаць з дадзенымі з верагоднасцю быць абмежавана; кампаніі наўрад ці дазволяць даследаванні, якія маглі б прымусіць іх выглядаць дрэнна. Па-другое, вы, верагодна, не зможа абменьвацца дадзенымі з іншымі даследчыкамі, а гэта значыць, што іншыя даследчыкі не змогуць праверыць і пашырыць свае вынікі. Акрамя таго, гэтыя партнёрскія адносіны могуць стварыць хаця б бачнасць канфлікту інтарэсаў, дзе людзі маглі б думаць, што вашы вынікі былі пад уплывам вашых партнёрскіх адносін. Усе гэтыя мінусы могуць быць вырашаны, але важна, каб было ясна, што праца з дадзенымі, якія не даступныя для ўсіх былі як плюсы і мінусы.

Карацей кажучы, шмат вялікіх дадзеных недаступная для даследчыкаў. Ёсць сур'ёзныя юрыдычныя, тэхнічныя, бізнес, і этычныя бар'еры, якія перашкаджаюць доступ да дадзеных, і гэтыя бар'еры не будуць сыходзіць. Нацыянальныя ўрады звычайна ўсталёўваюць працэдуры для ўключэння доступу да дадзеных, але гэты працэс можа быць больш спецыяльнай на дзяржаўным і мясцовым узроўнях. Акрамя таго, у некаторых выпадках, даследчыкі могуць супрацоўнічаць з кампаніямі, каб атрымаць доступ да дадзеных, але гэта можа стварыць мноства праблем для даследчыкаў.