2.3.2.2 Inaccessible

Údaje v držbe podnikov a vlád je ťažké pre výskumných pracovníkov získať prístup.

V máji 2014, americká Národný bezpečnostný program otvoril dátové centrum vo vidieckych Utah, ktorý má nepríjemnú meno, spravodajskej komunity Komplexné National Cybersecurity iniciatíva Data Center. Avšak, toto dátového centra, ktorý prišiel byť známy ako Utah Data Center, je údajne majú úžasné schopnosti. Jedna správa uvádza, že Utah Data Center je schopný uchovávať a spracovávať všetky formy komunikácie vrátane "celého obsahu súkromných e-mailov, mobilný telefón hovory a vyhľadávanie Google, rovnako ako všetky druhy osobných údajov chodníky-parkovací príjmov, cestovné itinerára , kníhkupectvá nákupy a ďalšie digitálne `vrecká vrh '" (Bamford 2012) . Okrem vyvoláva obavy o citlivú povahu veľa informácií zachyteného vo veľkých dát, ktorá bude popísaná ešte nižšie, Utah Data Center je extrémny príklad z bohaté zdroje dát, ktorý je neprístupný pre výskumných pracovníkov. Všeobecnejšie povedané, veľa zdrojov spracovanie veľkých objemov dát, ktoré by bolo užitočné, aby výskumní pracovníci sú riadené a obmedzené vlády (napr daňových údajov a vzdelávacie dát) a obchodné spoločnosti (napr otázok na vyhľadávače a telefónny hovor meta-dáta). Z tohto dôvodu budú tieto údaje nemusia byť okamžite k dispozícii pre výskumných pracovníkov na univerzitách, a väčšina ani nebude výskumníkom vlád alebo spoločností k dispozícii.

Podľa mojich skúseností, mnoho výskumníkov založené na univerzitách zle zdroj tejto nedostupnosti. Tieto údaje nie sú nedostupné, pretože ľudia u spoločností a vlád sú hlúpi, leniví, alebo bezcitný. Skôr existujú vážne právne, technické, obchodné a etické prekážky, ktoré bránia prístupu k dátam. Napríklad niektoré termíny-of-Service dohody pre webové stránky umožňujú iba údaje, ktoré majú byť použité zamestnanci alebo zlepšenie služby. Takže niektoré formy zdieľania dát môže vystaviť spoločnostiam oprávneným súdnym sporom zo strany zákazníkov. Existujú tiež značné obchodné riziká spoločností zapojených do zdieľania dát. Skúste si predstaviť, ako bude verejnosť reagovať, ak osobné dáta pre vyhľadávanie náhodou unikli z Google v rámci univerzitného výskumného projektu. Takéto porušenie dát, ak je extrémna, môže byť dokonca existenčné riziko pre spoločnosť. Takže Google a väčšina veľkých spoločností-sú veľmi averziu voči riziku o zdieľanie dát s výskumnými pracovníkmi.

V skutočnosti, takmer každý, kto je schopný poskytnúť prístup k veľkému množstvu dát pozná príbeh Abdur Chowdhury. V roku 2006, keď bol v čele AOL výskumu, on nie je zámerne uvoľnená, čo si myslel, boli anonymizované vyhľadávacích dotazov od 650.000 užívateľov AOL výskumnej obce. Čo sa týka môžem povedať, Chowdhury a vedci v AOL mal dobré úmysly a oni si mysleli, že oni anonymné dáta. Ale mýlili sa. To bolo rýchlo zistil, že údaje neboli tak anonymný, ako vedci mysleli, a reportéri z New York Times boli schopní identifikovať ľudí v dátovom súbore s ľahkosťou (Barbaro and Zeller Jr 2006) . Akonáhle sú tieto problémy boli objavené, Chowdhury odstránená dáta z webových stránok AOL, ale už bolo neskoro. Údaje boli umiestňované na iné webové stránky, a to bude pravdepodobne aj naďalej k dispozícii, ak čítate túto knihu. Vzhľadom k jeho pokuse zdieľať dáta s vedeckou komunitou Chowdhury bol vyhodený, a AOL technický riaditeľ rezignoval (Hafner 2006) . Ako ukazuje tento príklad, výhody pre konkrétny jednotlivca vnútri podnikov s cieľom uľahčiť prístup k dátam sú celkom malé a najhorší scenár je hrozné.

Výskum však môže získať prístup k dátam, ktoré sú neprístupné pre širokú verejnosť. Vlády majú k dispozícii postupy, ktoré výskumníci môžu nasledovať požiadať o prístup, a ako príklady ďalej v tejto kapitole ukazujú, výskumníci môžu občas získať prístup k podnikovým dátam. Napríklad Einav et al. (2015) spolupracuje s výskumným pracovníkom na eBay k štúdiu digitálne stopy z on-line aukcií. Porozprávam viac o výskume, ktorý prišiel z tejto spolupráce ďalej v tejto kapitole (§ 2.4.3.2), ale ja som to spomenul teraz, pretože má k dispozícii všetky štyri zo zložiek, ktoré vidím v úspešných partnerstva: výskumník záujmu, schopností výskumník, spoločnosť záujem a schopnosť spoločnosti. Inými slovami, Einav a jeho kolegovia sa zaujímali a schopný študovať online aukcie. A eBay bol tiež. Avšak, videl som veľa možnej spolupráce zlyhá, pretože buď výskumník alebo spoločnosť postrádal jednu z týchto zložiek.

Dokonca aj keď ste schopní rozvíjať partnerstvo s podnikmi, však, tam sú niektoré tienisté stránky pre vás. Po prvé, otázky, ktoré môžete požiadať s dátami s pravdepodobnosťou byť obmedzený; spoločnosti je nepravdepodobné, aby výskum, ktorý by ich mohol vyzerať zle. Po druhé, budete pravdepodobne nebude môcť zdieľať svoje dáta s inými výskumníkmi, čo znamená, že ostatní vedci nebudú môcť overiť a rozšíriť svoje výsledky. Ďalej táto partnerstvá môžu vytvoriť aspoň zdanie konfliktu záujmov, kde by ľudia mohli myslieť, že vaše výsledky boli ovplyvnené vaše partnerstvo. Všetky tieto nevýhody možno riešiť, ale je dôležité, aby bolo jasné, že práca s dátami, ktoré nie sú dostupné všetkým mali obaja upsides aj nevýhody.

Stručne povedané, veľa veľkých objemov dát je neprístupný bádateľom. Existujú vážne právne, technické, obchodné a etické prekážky, ktoré bránia prístupu k dátam, a tieto bariéry neodíde. Národné vlády majú všeobecne zavedené postupy, ktorými umožňujúce prístup k dátam, ale proces môže byť viac ad hoc na štátnej a miestnej úrovni. Tiež, v niektorých prípadoch, výskumníci môžu partner s podnikmi získať prístup k dátam, ale to môže vytvoriť rad problémov pre výskumných pracovníkov.