2.3.2.2 Inaccessible

Údaje v držení podniků a vlád je obtížné pro výzkumné pracovníky získat přístup.

V květnu 2014, americká Národní bezpečnostní program otevřel datové centrum ve venkovských Utah, který má nepříjemnou jméno, zpravodajské komunity Komplexní National Cybersecurity iniciativa Data Center. Nicméně, toto datového centra, který přišel být známý jako Utah Data Center, je údajně mají úžasné schopnosti. Jedna zpráva uvádí, že Utah Data Center je schopen uchovávat a zpracovávat všechny formy komunikace včetně "celého obsahu soukromých e-mailů, mobilní telefon hovory a vyhledávání Google, stejně jako všechny druhy osobních údajů stezky-parkovací příjmů, cestovní itineráře , knihkupectví nákupy a další digitální `kapsy vrh '" (Bamford 2012) . Kromě vyvolává obavy o citlivou povahu hodně informací zachyceného ve velkých dat, která bude popsána ještě níže, Utah Data Center je extrémní příklad z bohaté zdroje dat, který je nepřístupný pro výzkumné pracovníky. Obecněji řečeno, mnoho zdrojů zpracování velkých objemů dat, které by bylo užitečné, aby výzkumní pracovníci jsou řízeny a omezené vlády (např daňových údajů a vzdělávací dat) a obchodní společnosti (např dotazů na vyhledávače a telefonní hovor meta-data). Z tohoto důvodu budou tyto údaje nemusí být okamžitě k dispozici pro výzkumné pracovníky na univerzitách, a většina ani nebude výzkumníkům vlád nebo společností k dispozici.

Podle mých zkušeností, mnoho výzkumníků založené na univerzitách špatně zdroj této nedostupnosti. Tyto údaje nejsou nedostupné, protože lidé u společností a vlád jsou hloupí, líní, nebo bezcitný. Spíše existují vážné právní, technické, obchodní a etické překážky, které brání přístupu k datům. Například některé termíny-of-Service dohody pro webové stránky umožňují pouze údaje, které mají být použity zaměstnanci nebo zlepšení služby. Takže některé formy sdílení dat může vystavit společnostem oprávněným soudním sporům ze strany zákazníků. Existují také značné obchodní rizika společností zapojených do sdílení dat. Zkuste si představit, jak bude veřejnost reagovat, pokud osobní data pro vyhledávání náhodou unikly z Google v rámci univerzitního výzkumného projektu. Takové porušení dat, je-li extrémní, může být dokonce existenční riziko pro společnost. Takže Google a většina velkých společností-jsou velmi averzi vůči riziku o sdílení dat s výzkumnými pracovníky.

Ve skutečnosti, téměř každý, kdo je schopen poskytnout přístup k velkému množství dat zná příběh Abdur Chowdhury. V roce 2006, kdy byl v čele AOL výzkumu, on není záměrně uvolněna, co si myslel, byly anonymizovány vyhledávacích dotazů od 650.000 uživatelů AOL výzkumné obce. Co se týče můžu říct, Chowdhury a vědci v AOL měl dobré úmysly a oni si mysleli, že oni anonymní data. Ale mýlili se. To bylo rychle zjistil, že údaje nebyly tak anonymní, jak vědci mysleli, a reportéři z New York Times byli schopni identifikovat lidi v datovém souboru s lehkostí (Barbaro and Zeller Jr 2006) . Jakmile jsou tyto problémy byly objeveny, Chowdhury odstraněna data z webových stránek AOL, ale už bylo pozdě. Údaje byly umísťovány na jiné webové stránky, a to bude pravděpodobně i nadále k dispozici, pokud čtete tuto knihu. Vzhledem k jeho pokusu sdílet data s vědeckou komunitou Chowdhury byl vyhozen, a AOL technický ředitel rezignoval (Hafner 2006) . Jak ukazuje tento příklad, výhody pro konkrétní jednotlivce uvnitř podniků s cílem usnadnit přístup k datům jsou docela malé a nejhorší scénář je hrozné.

Výzkum však může získat přístup k datům, které jsou nepřístupné pro širokou veřejnost. Vlády mají k dispozici postupy, které výzkumníci mohou následovat požádat o přístup, a jako příklady dále v této kapitole ukazují, výzkumníci mohou občas získat přístup k podnikovým datům. Například Einav et al. (2015) spolupracuje s výzkumným pracovníkem na eBay ke studiu digitální stopy z on-line aukcí. Promluvím více o výzkumu, který přišel z této spolupráce dále v této kapitole (§ 2.4.3.2), ale já jsem to zmínil teď, protože má k dispozici všechny čtyři ze složek, které vidím v úspěšných partnerství: výzkumník zájmu, schopností výzkumník, společnost zájem a schopnost společnosti. Jinými slovy, Einav a jeho kolegové se zajímali a schopný studovat online aukce. A eBay byl také. Nicméně, viděl jsem mnoho možné spolupráce nezdaří, protože buď výzkumník nebo společnost postrádal jednu z těchto složek.

Dokonce i když jste schopni rozvíjet partnerství s podniky, nicméně, tam jsou některé stinné stránky pro vás. Za prvé, otázky, které můžete požádat s daty s pravděpodobností být omezen; společnosti je nepravděpodobné, aby výzkum, který by je mohl vypadat špatně. Za druhé, budete pravděpodobně nebude moci sdílet svá data s jinými výzkumníky, což znamená, že ostatní vědci nebudou moci ověřit a rozšířit své výsledky. Dále tato partnerství mohou vytvořit alespoň zdání střetu zájmů, kde by lidé mohli myslet, že vaše výsledky byly ovlivněny vaše partnerství. Všechny tyto nevýhody lze řešit, ale je důležité, aby bylo jasné, že práce s daty, které nejsou dostupné všem měli oba Upsides i nevýhody.

Stručně řečeno, spousta velkých objemů dat je nepřístupný badatelům. Existují vážné právní, technické, obchodní a etické překážky, které brání přístupu k datům, a tyto bariéry neodejde. Národní vlády mají obecně zavedené postupy, kterými umožňující přístup k datům, ale proces může být více ad hoc na státní a místní úrovni. Také, v některých případech, výzkumníci mohou partner s podniky získat přístup k datům, ale to může vytvořit řadu problémů pro výzkumné pracovníky.