2.3.2.2 Недостъпен

Данните, съхранявани от предприятията и правителствата са трудни за изследователите да имат достъп.

През май 2014 г., Програмата за националната сигурност на САЩ откри център за данни в селските райони на щата Юта, който има неудобно име, разузнавателната общност всеобхватна национална киберсигурност Инициатива Data център. Въпреки това, този център за данни, който е дошъл да бъде известен като център на Юта Data, се съобщава, че има поразителен възможности. Един доклад твърди, че Data Center на Юта е в състояние да съхранява и обработва всички форми на комуникация, включително "пълното съдържание на частни имейли, клетъчни телефонни разговори, както и Google търсения, както и всички видове лични данни разписки пътеки-паркинги, туристически маршрути , покупки книжарница, и други цифрови `джоба отпадъци" (Bamford 2012) . В допълнение към изразявайки опасения относно чувствителния характер на голяма част от информацията заловен в големи данни, които ще бъдат описани по-долу, Data Center на Юта е краен пример за богат източник на данни, която е недостъпна за изследователите. По-общо казано, много източници на големи данни, които биха били полезни за изследователите са контролирани и ограничени от правителствата (например, данъчни данни и образователни данни) и компании (например, заявки за търсачки и телефонно обаждане мета-данни). Поради това тези данни няма да бъдат незабавно на разположение на изследователите в университетите, и най-дори няма да бъде на разположение на изследователите в правителствата или компании.

В моя опит, много изследователи, базирани в университетите не разбират източника на тази недостъпност. Тези данни не са недостъпни, защото хората в компаниите и правителствата са глупави, мързеливи, или незаинтересовани. По-скоро има сериозен правен, технически, бизнес, и етични бариери, които пречат на достъпа до данни. Например, някои споразумения отношение на услугата за уеб сайтове позволяват само на данни, които се използват от служителите или за подобряване на услугата. Така че някои форми на обмен на данни може да изложи на компаниите да легитимните съдебни дела от клиенти. Има също така значителни бизнес рискове за дружествата, които участват в обмен на данни. Опитайте се да си представите как публиката ще реагира, ако данните лична търсене случайно изпуснати навън от Google като част от университетски изследователски проект. Такова нарушение на данни, ако екстремни, дори може да е екзистенциален риск за дружеството. Така че Google-а най-големите фирми-много желаят риск за споделяне на данни с изследователи.

Всъщност, почти всеки, който е в състояние да осигури достъп до големи количества от данни знае историята на Abdur Chowdhury. През 2006 г., когато той е бил ръководител на научните изследвания AOL, той умишлено освободен какво мисли бяха анонимна заявки за търсене от 650,000 потребители на AOL на изследователската общност. Доколкото мога да кажа, Chowdhury и изследователите в AOL са имали добри намерения и те смятат, че са направени анонимни данни. Но, те са грешни. Той бързо бе открил, че данните не са били толкова анонимни, както учените смятаха, и репортери от New York Times са били в състояние да се идентифицират хората в данните с лекота (Barbaro and Zeller Jr 2006) . След като са били открити тези проблеми, Chowdhury отстранен данните от интернет страницата на AOL, но вече беше твърде късно. Данните бяха повторно публикуваха на други сайтове, и то най-вероятно ще продължи да бъде на разположение, когато четете тази книга. Заради опита си да споделя данни с научната общност, Chowdhury беше уволнен, и главен технологичен директор на AOL подаде оставка (Hafner 2006) . Както показва този пример, ползите за конкретни лица вътре на фирми за улесняване на достъпа до данни са доста малки и в най-лошия случай е ужасно.

Изследванията обаче може да се получи достъп до данни, че е недостъпна за широката общественост. Правителствата имат процедури, че изследователите могат да следват, за да се прилага за достъп, и като примерите по-късно в тази глава шоу, изследователите могат понякога да получат достъп до корпоративните данни. Например, Einav et al. (2015) в партньорство с изследовател в иБей за изследване на цифрови следи от онлайн търгове. Ще говоря повече за изследванията, които идват от това сътрудничество късно през глава (раздел 2.4.3.2), но аз го споменавам сега, тъй като имаше всички четири от съставките, които виждам в успешни партньорства: изследовател интерес, способността изследовател, фирмата интерес и способности на фирмата. С други думи, Einav и колеги са прегледали и способни да учат онлайн търгове. И, иБей е също. Въпреки това, аз съм виждал много възможно сътрудничество се провалят, защото нито на изследователя или компанията липсваше една от тези съставки.

Дори и да сте в състояние да се развие партньорство с бизнеса, обаче, има някои недостатъци за вас. Първо, въпросите, които могат да поискат с данните, с вероятност да бъде ограничено; фирми са малко вероятно да позволи на научните изследвания, които могат да ги направят да изглежда зле. Второ, най-вероятно няма да могат да споделят вашите данни с други изследователи, което означава, че други изследователи, няма да могат да се проверят и да разшири вашите резултати. Освен това, тези партньорства могат да създадат най-малко появата на конфликт на интереси, където хората могат да мислят, че резултатите са били повлияни от вашите партньорства. Всички тези недостатъци могат да бъдат решени, но е важно да бъде ясно, че работи с данни, които не са достъпни за всеки, имал плюсове, така и минуси.

В обобщение, много голям данни е недостъпна за изследователите. Има сериозни правни, технически, бизнес, и етични бариери, които пречат на достъпа до данни, и тези бариери няма да си отиде. Националните правителства обикновено са установени процедури за осигуряване на достъп на данни, но процесът може да бъде повече специална в държавните и местни нива. Също така, в някои случаи, изследователите могат да си партнират с фирми, за да получат достъп до данните, но това може да създаде различни проблеми за изследователите.