2.3.2.2 niedostępne

Dane posiadane przez przedsiębiorstwa i rządy są trudne naukowcom dostęp.

W maju 2014 roku, Narodowy Plan Bezpieczeństwa USA otworzył centrum danych w wiejskich Utah, który ma niezręcznej nazwy, Intelligence Community Kompleksowa Krajowa Inicjatywa cyberbezpieczeństwa Data Center. Jednak ta data center, które zaczęło być znane jako Utah Data Center, jest zgłaszane do zdumiewających możliwości. Jeden z raportów twierdzi, że Utah Data Center jest w stanie przechowywać i przetwarzać wszelkie formy komunikacji w tym "wszelkich treści prywatnych e-maili, rozmowy przez telefon komórkowy, i wyszukiwania w Google, a także wszelkiego rodzaju danych osobowych wpływów szlaków, parkingów, tras turystycznych zakupy księgarni i innych cyfrowych `kieszeń miot '" (Bamford 2012) . Oprócz gromadzenia obaw o wrażliwej naturze wiele informacji przechwyconych w dużych danych, które zostaną opisane bardziej szczegółowo poniżej, Utah Data Center jest skrajnym przykładem bogatego źródła danych, które są niedostępne dla badaczy. Mówiąc bardziej ogólnie, wiele źródeł dużym danych, które byłyby użyteczne dla badaczy są kontrolowane i ograniczane przez rządy (np danych podatkowych oraz danych edukacyjnych) oraz firm (np zapytań do wyszukiwarek i rozmowy telefonicznej metadane). W związku z tym dane te nie będą natychmiast dostępne dla naukowców z uniwersytetów, a większość nawet nie być dostępne dla badaczy rządów i firm.

Z mojego doświadczenia wynika, wielu badaczy oparte na uniwersytetach rozumieją źródło tej niedostępności. Dane te nie są niedostępne, ponieważ ludzie w firmach i rządy są głupi, leniwi lub obojętną. Przeciwnie, istnieją poważne prawne, techniczne, biznesu i bariery etyczne, które uniemożliwiają dostęp do danych. Na przykład, niektóre terms-of-service umowy na stronach internetowych pozwalają jedynie dane, które mają być wykorzystywane przez pracowników, albo do poprawy jakości usług. Więc pewne formy udostępniania danych może narazić firmy do uzasadnionych pozwów od klientów. Istnieją również znaczne ryzyko biznesowe dla firm biorących udział w wymianie danych. Spróbuj sobie wyobrazić, jak publiczność zareaguje jeśli dane osobiste wyszukiwania przypadkowo wyciekły z Google w ramach projektu badawczego uniwersytetu. Takie naruszenie danych, jeśli ekstremalnych, może być nawet egzystencjalne zagrożenie dla firmy. Więc Google i większość dużych firm-są bardzo boi się ryzyka o udostępnianiu danych z naukowcami.

W rzeczywistości, prawie każdy, kto jest w stanie zapewnić dostęp do dużych ilości danych zna historię Abdur Chowdhury. W 2006 roku, kiedy był szefem badań AOL, on celowo uwolniony, co myśli były anonimowe zapytań od 650.000 użytkowników AOL społeczności naukowej. O ile mogę powiedzieć, Chowdhury i naukowcy z AOL miał dobre intencje, a oni myśleli, że anonimowe dane. Ale mylili. Został on szybko odkrył, że dane nie były tak anonimowe jak naukowcy sądzili, a reporterzy z The New York Times byli w stanie zidentyfikować osoby w zbiorze danych z łatwością (Barbaro and Zeller Jr 2006) . Kiedy te problemy zostały odkryte, Chowdhury usunąć dane ze strony internetowej AOL, ale było już za późno. Dane zostały zamieszczać na innych stronach internetowych, a to prawdopodobnie będzie nadal dostępne, gdy czytasz tę książkę. Ze względu na jego próby udostępnienia danych ze środowiskiem naukowym, Chowdhury został zwolniony, a szef działu technologii AOL zrezygnował (Hafner 2006) . Jako przykład ten pokazuje, że korzyści dla konkretnych osób wewnątrz spółek w celu ułatwienia dostępu do danych są dość małe, a najgorszy scenariusz jest straszna.

Badania mogą jednak uzyskać dostęp do danych, które są niedostępne dla ogółu społeczeństwa. Rządy mają procedury, które naukowcy mogą śledzić, aby ubiegać się o dostęp, a jako przykłady w tym rozdziale pokazują, naukowcy mogą od czasu do czasu uzyskania dostępu do danych korporacyjnych. Na przykład, Einav et al. (2015) współpracował z naukowca w serwisie eBay do badania śladów cyfrowych z aukcji internetowych. Odezwę się więcej o badaniach, które pochodziły z tej współpracy w dalszej części rozdziału (sekcja 2.4.3.2), ale wspominam to teraz, ponieważ miał wszystkie cztery składniki, które widzę w udanych partnerstw: zainteresowania badacza zdolności naukowców, interes spółki i możliwości firmy. Innymi słowy, Einav i jego współpracownicy byli zainteresowani i zdolny do studiowania na internetowych aukcjach. I był również eBay. Jednak widziałem wiele możliwości współpracy niepowodzeniem, ponieważ albo badacz lub firma, brakowało jednego z tych składników.

Nawet jeśli jesteś w stanie rozwinąć współpracę z firmy, jednak istnieją pewne wady dla ciebie. Po pierwsze, pytania, które można zadać z danymi z prawdopodobnie ograniczone; przedsiębiorstwa są mało prawdopodobne, aby umożliwić badania, które mogłyby spowodować, że wyglądają źle. Po drugie, prawdopodobnie nie będzie w stanie podzielić się swoimi danymi z innymi badaczami, co oznacza, że ​​inni badacze nie będzie w stanie zweryfikować i rozszerzyć swoje wyniki. Ponadto, te partnerstwa może stworzyć przynajmniej pozory konfliktu interesów, w którym ludzie mogą pomyśleć, że wyniki były pod wpływem swoich partnerstw. Wszystkie te wady można rozwiązać, ale ważne jest, aby było jasne, że praca z danymi, które nie są dostępne dla każdego, miał zarówno upsides i wady.

Podsumowując, wiele dużych danych jest niedostępne dla badaczy. Istnieją poważne prawne, techniczne, biznesu i bariery etyczne, które uniemożliwiają dostęp do danych, a te bariery nie odejdzie. Rządy krajowe reguły wdrożyć procedury umożliwiające dostęp do danych, ale proces może być bardziej ad hoc na szczeblu stanowym i lokalnym. Ponadto, w niektórych przypadkach, naukowcy mogą współpracować z firmami w celu uzyskania dostępu do danych, ale może to spowodować wiele problemów dla badaczy.