2.3.2.2 غیر قابل دسترس

اطلاعات برگزار شده توسط کسب و کار و دولت ها دشوار برای محققان برای دسترسی به.

در ماه مه 2014، در دستور کار امنیت ملی آمریکا یک مرکز داده در مناطق روستایی ایالت یوتا که دارای یک نام بی دست و پا از امنیت سایبری ملی ابتکار مرکز داده جامعه اطلاعاتی جامع را باز کرد. با این حال، این مرکز داده، که آمده است به عنوان مرکز داده یوتا شناخته شده است، گزارش شده است که قابلیت های حیرت انگیز. یک گزارش ادعا می کند که مرکز داده یوتا قادر به ذخیره و پردازش همه انواع ارتباطات از جمله "محتویات کامل از ایمیل های خصوصی، تماس های تلفن همراه، و جستجوهای گوگل، و همچنین همه انواع داده های شخصی رسید مسیرهای پیاده روی، پارکینگ، برنامه های سفر سفر است ، خرید کتابفروشی، و دیگر دیجیتال `بستر جیب" (Bamford 2012) . علاوه بر نگرانی در مورد بالا بردن ماهیت حساس بسیاری از اطلاعات گرفته شده در داده های بزرگ، که بیشتر در زیر توضیح داده خواهد شد، مرکز داده یوتا نمونهای افراطی از یک منبع داده غنی است که غیر قابل دسترس به محققان است. به طور کلی، منابع بسیاری از داده های بزرگ که مفید خواهد بود محققان در حال کنترل و محدود توسط دولت (به عنوان مثال، اطلاعات مالیاتی و داده های آموزشی) و شرکت (به عنوان مثال، نمایش داده شد به موتورهای جستجو و تماس تلفنی متا داده). بنابراین، این داده ها نمی خواهد، بلافاصله به محققان موجود در دانشگاه ها، و بیشتر حتی نمی خواهد در دسترس پژوهشگران در دولت و یا شرکت باشد.

در تجربه من، بسیاری از پژوهشگران در دانشگاه دچار سوء تفاهم منبع این عدم دسترسی. این داده ها غیر قابل دسترس، چرا که مردم در شرکت ها و دولت احمق، تنبل و یا uncaring نیست. در عوض، جدی حقوقی، فنی، کسب و کار، و موانع اخلاقی است که جلوگیری از دسترسی به داده ها وجود دارد. برای مثال، برخی توافقات شرایط سرویس برای وب سایت تنها اجازه می دهد داده ها را توسط کارمندان استفاده می شود و یا به منظور بهبود خدمات. بنابراین اشکال خاصی از به اشتراک گذاری داده ها می تواند شرکت را به دادخواهی قانونی از مشتریان قرار دهد. همچنین خطرات کسب و کار قابل توجهی را به شرکت های درگیر در اشتراک گذاری داده ها وجود دارد. سعی کنید تصور کنید که چگونه عمومی پاسخ اگر اطلاعات جستجو شخصی به طور تصادفی از گوگل به عنوان بخشی از یک پروژه تحقیقاتی دانشگاه به بیرون درز. چنین نقض داده، اگر شدید، ممکن است حتی خطر وجودی برای شرکت باشد. بنابراین گوگل و بزرگ ترین شرکت های بسیار ریسک گریزی مورد به اشتراک گذاری داده ها با محققان.

در واقع، تقریبا هر کسی که در یک موقعیت است که برای دسترسی به مقادیر زیادی از داده می داند داستان عبد چودری. در سال 2006، زمانی که او رئیس پژوهش AOL بود، او به عمد منتشر آنچه که او فکر جستجو نمایش داده شد از 650،000 کاربران AOL به جامعه پژوهش بی نام شد. تا آنجا که من می توانم بگویم، چودری و محققان در AOL نیت خوب بود و فکر می کردند که آنها داده های ناشناخته بود. اما، آنها در اشتباه بودند. آن را به سرعت کشف شد که داده شد به عنوان ناشناس به عنوان پژوهشگران فکر نمی کند، و خبرنگاران از نیویورک تایمز قادر به شناسایی افراد در مجموعه داده با سهولت شد (Barbaro and Zeller Jr 2006) . هنگامی که این مشکلات کشف شدند، چودری حذف داده ها از وب سایت AOL، اما خیلی دیر شده بود. داده ها بر روی وب سایت های دیگر اعلان مجدد شده بود، و آن را احتمالا هنوز هم در دسترس باشد که شما در حال خواندن این کتاب است. از آنجا که از تلاش خود را برای به اشتراک گذاشتن داده ها با جامعه پژوهش، چودری، اخراج شد و افسر ارشد فناوری AOL استعفا داد (Hafner 2006) . از آنجا که این مثال نشان می دهد، منافع افراد خاص در داخل شرکت به منظور تسهیل دسترسی به داده ها بسیار کوچک هستند و بدترین حالت وحشتناک است.

تحقیقات می توانید، با این حال، به دست آوردن دسترسی به داده ها است که غیر قابل دسترس برای عموم مردم. دولت ها باید با روالی که محققان می توانید به دنبال برای دسترسی اعمال می شود، و به عنوان نمونه در این فصل نشان می دهد، محققان گاهی اوقات می تواند دسترسی به اطلاعات شرکت ها. به عنوان مثال، Einav et al. (2015) با یک محقق در eBay به مطالعه آثار دیجیتال از مزایده های آنلاین همکاری است. من بیشتر در مورد تحقیقاتی که از این همکاری بعدا در این فصل (بخش 2.4.3.2) آمد صحبت، اما من آن را ذکر حال حاضر به دلیل آن را به حال هر چهار از مواد تشکیل دهنده است که من در همکاری موفق را ببینید: علاقه محقق، قابلیت محقق، شرکت بهره، و قابلیت شرکت. به عبارت دیگر، Einav و همکاران علاقه مند و قادر به مطالعه مزایده های آنلاین بودند. و، ای بی هم بود. با این حال، من دیده ام بسیاری از همکاری های احتمالی شکست چرا که هر دو محقق و یا شرکت یکی از این مواد را نداشت.

حتی اگر شما قادر به توسعه همکاری با یک کسب و کار، با این حال، برخی از جنبه های منفی برای شما وجود دارد. اول، سوالات است که شما می توانید با داده ها با احتمال محدود شود بپرسید. شرکت بعید است که اجازه می دهد تحقیقات است که می تواند آنها را نگاه بد هستند. دوم، شما احتمالا قادر نخواهد بود برای به اشتراک گذاشتن اطلاعات خود را با محققان دیگر، به این معنی که محققان دیگر قادر نخواهد بود به منظور بررسی و گسترش نتایج خود را. علاوه بر این، این مشارکت می تواند حداقل به ظاهر از یک تضاد منافع، که در آن از مردم ممکن است فکر می کنم که نتایج خود را با مشارکت خود را تحت تاثیر قرار گرفتند ایجاد کنید. همه این جنبه های منفی را می توان به، اما مهم است که به روشن باشد که کار با داده ها است که برای همه قابل دسترس نیست هر دو upsides و جنبه های منفی بود.

به طور خلاصه، مقدار زیادی از داده های بزرگ غیر قابل دسترس به محققان است. وجود دارد جدی حقوقی، فنی، کسب و کار، و موانع اخلاقی است که جلوگیری از دسترسی به داده ها، و این موانع نمی خواهد برود. دولت های ملی به طور کلی روش برای فعال کردن دسترسی به داده ها ایجاد کرده اند، اما این روند می تواند بیش موقت در سطوح ایالتی و محلی. همچنین، در برخی موارد، محققان می توانند همکاری با شرکت های به دست آوردن دسترسی به داده ها، اما این می تواند انواع مشکلات برای محققان ایجاد کنید.