2.3.2.2 nepieejamas

Rīcībā, uzņēmumiem un valdības dati ir grūti pētniekiem piekļūt.

2014. maijā, ASV Nacionālās drošības Agenda atvērusi datu centru lauku Utah, kas ir neērts vārdu, Izlūkošanas Kopienas Vispārējā nacionālā kiberdrošības iniciatīva Data Center. Tomēr šo datu centrs, kas ir pienācis būt zināma kā Utah datu centrs, tiek ziņots, ir apbrīnojams spējas. Viens ziņojums apgalvo, ka Utah datu centrs spēj uzglabāt un apstrādāt visus komunikācijas veidus, tostarp "Complete saturu privāto e-pastu, mobilā tālruņa zvaniem, un Google meklēšanu, kā arī visu veidu personas datu takas autostāvvieta kvītis, ceļojumu maršrutus , grāmatnīca pirkumi, un citu digitālo `kabatas metiens '" (Bamford 2012) . Papildus radot bažas par jūtīgo dabu daudz informācijas notverti lielajās datiem, kas tiks aprakstītajā vēl tālāk, Utah Data Center ir ekstrēms piemērs bagāts datu avota, kas nav pieejama pētniekiem. Vispārīgāk, daudzi avoti, lielo datu, kas būtu noderīgi pētnieki kontrolē un ierobežo valdības (piemēram, nodokļu datu un izglītības datiem) un uzņēmumu (piemēram, vaicājumus meklētājprogrammām un telefona zvanu meta-datiem). Tādēļ šie dati nebūs uzreiz pieejams pētniekiem universitātēs, un lielākā daļa nav pat ir pieejama pētniekiem valdību vai uzņēmumu.

Pēc manas pieredzes, daudzi pētnieki balstās universitātēs pārprot avotu šajā nepieejamība. Šie dati nav nepieejami, jo cilvēki pie uzņēmumiem un valdībām ir stulbi, slinki, vai uncaring. Drīzāk ir nopietnas juridiskās, tehniskās, uzņēmējdarbības un ētiskie barjeras, kas kavē piekļuvi datiem. Piemēram, daži noteikumi-of-pakalpojumu līgumi par mājas lapas tikai ļauj datus, ko izmanto darbinieku vai lai uzlabotu pakalpojumu. So noteiktu veidu datu apmaiņu varētu pakļaut uzņēmumus likumīgu tiesas prāvas no klientiem. Ir arī būtiskas biznesa riskus uzņēmumiem, kas iesaistīti koplietošanas datiem. Mēģiniet iedomāties, kā sabiedrība varētu reaģēt, ja personīgā meklēt datus nejauši noplūdis no Google kā daļu no universitātes pētniecības projektā. Šāds datu aizsardzības pārkāpumiem, ja ļoti, pat varētu būt eksistenciāls risks uzņēmumam. Tātad Google un visvairāk lieliem uzņēmumiem-ir ļoti riska izvairās par koplietošanu datus ar zinātniekiem.

Faktiski, gandrīz ikviens, kurš ir tādā stāvoklī, lai nodrošinātu piekļuvi lielu datu apjomu zina stāstu par Abdur Chowdhury. 2006.gadā, kad viņš bija vadītājs AOL pētījumu, viņš apzināti atbrīvots, ko viņš domāja, bija anonimizētu meklēšanas pieprasījumi 650,000 AOL dalībniekus pētniecības aprindām. Ciktāl es varu pateikt, Chowdhury un pētnieki AOL bija labi nodomi, un viņi domāja, ka viņi bija anonimizēti dati. Bet, tie ir nepareizi. Tas bija ātri atklāja, ka dati nav tik anonīms kā pētnieki domāja, un reportieri no New York Times varēja identificēt cilvēkus datu kopā ar vieglumu (Barbaro and Zeller Jr 2006) . Kad šīs problēmas tika atklāts, Chowdhury noņem datus no AOL mājas lapā, bet tas bija pārāk vēlu. Dati tika nepārpublicēt citās tīmekļa vietnēs, un tas, iespējams, joprojām būs pieejama, kad jūs lasāt šo grāmatu. Sakarā ar viņa mēģinājums apmainīties ar datiem ar zinātnieku aprindām, Chowdhury tika atlaists, un AOL galvenais tehnoloģiju virsnieks aizgāja (Hafner 2006) . Tā kā šis piemērs parāda, ieguvumi konkrētām personām iekšpusē uzņēmumiem atvieglotu piekļuvi datiem ir diezgan mazs, un sliktākajā gadījumā ir briesmīgi.

Research tomēr var piekļūt datiem, kas ir nepieejamas plašai sabiedrībai. Valdībām ir procedūras, pētnieki var sekot pieteikties piekļuvei, un kā piemērus turpmāk šajā nodaļā parādīt, pētnieki dažkārt var piekļūt korporatīvajiem datiem. Tā, piemēram, Einav et al. (2015) sadarbojas ar pētnieks eBay mācīties digitālo pēdas no tiešsaistes izsolēs. Es ņemšu runāt vairāk par pētījumiem, kas nāca no šīs sadarbības vēlāk nodaļā (2.4.3.2 iedaļu), bet es pieminēt to tagad, jo tās rīcībā ir visa četrus no sastāvdaļām, kas redzu veiksmīgu sadarbību: pētnieka intereses, pētniece spējas, uzņēmums procenti, un uzņēmuma spējas. Citiem vārdiem sakot, Einav un kolēģi bija ieinteresēti un spējīgi studēt tiešsaistes izsolēs. Un, eBay bija arī. Tomēr, es esmu redzējis daudz iespējamo sadarbību neizdoties, jo nu pētnieks vai uzņēmuma trūka viena no šīm sastāvdaļām.

Pat ja jums ir iespēja izveidot partnerību ar uzņēmējdarbību, tomēr ir dažas ēnas jums. Pirmkārt, jautājumi, jūs varat uzdot ar datiem ar iespējams jāierobežo; uzņēmumiem, visticamāk, veikt pētījumus, kas varētu padarīt tās izskatās slikti. Otrkārt, jūs, iespējams, nevarēs koplietot datus ar citiem pētniekiem, kas nozīmē, ka citi pētnieki nevarēs pārbaudīt un paplašināt savus rezultātus. Turklāt šie partnerattiecības var radīt vismaz izskatu interešu konfliktu, kur cilvēki varētu domāt, ka jūsu rezultāti ietekmēja jūsu partnerībām. Visi šie ēnas var risināt, bet tas ir svarīgi, lai būtu skaidrs, ka strādāt ar datiem, kas nav pieejamas ikvienam bija gan upsides un downsides.

Kopumā, daudz lielo datu nepieejamas pētniekiem. Ir nopietnas juridiskās, tehniskās, uzņēmējdarbības un ētiskie barjeras, kas kavē piekļuvi datiem, un šie šķēršļi nebūs iet prom. Valstu valdības parasti ir izveidotas procedūras, kas ļauj piekļūt datiem, bet process var būt ad hoc pie valsts un vietējā līmenī. Arī dažos gadījumos, pētnieki var sadarboties ar uzņēmumiem, lai iegūtu piekļuvi datiem, bet tas var radīt dažādas problēmas pētniekiem.