6.6.2 درک و مدیریت ریسک اطلاعاتی

خطر اطلاعاتی رایج ترین مورد در تحقیقات اجتماعی است. آن به طور چشمگیری افزایش یافته است و این سخت ترین خطر برای درک است.

چالش اخلاقی دوم برای تحقیق در مورد سنسورهای دیجیتال، ریسک اطلاعاتی ، پتانسیل آسیب از افشای اطلاعات است (National Research Council 2014) . آسيب هاي اطلاعاتي از افشاي اطلاعات شخصي مي توانند از نظر اقتصادي (مثلا از دست دادن شغل)، اجتماعي (مانند خجالت)، روانشناختي (مثل افسردگي) و يا حتي جنايي (مثلا دستگيري براي رفتار غير قانوني) باشد. متاسفانه، عصر دیجیتال، خطرهای اطلاعاتی را به طور چشمگیری افزایش می دهد - اطلاعات بسیار زیادی در مورد رفتار ما وجود دارد. و ریسک اطلاعاتی بسیار دشوار است برای درک و مدیریت در مقایسه با خطرات که نگرانی در پژوهش اجتماعی اجتماعی آنالوگ مانند خطر فیزیکی است.

یکی از راه های است که محققان اجتماعی کاهش خطر ابتلا به اطلاعات "ناشناس" داده است. "ناشناس" روند از بین بردن شناسه شخصی آشکار مانند نام، آدرس، و شماره تلفن از داده است. با این حال، این روش بسیار کمتر موثر تر از بسیاری از مردم متوجه است، و آن است، در واقع، عمیقا و اساسا محدود است. به همین دلیل، هر زمان که من توصیف "ناشناس،" من علامت نقل قول استفاده کنید به شما یادآوری می کنند که این فرایند به ظاهر از گمنامی اما نه کاملا گمنام ایجاد می کند.

نمونه ای واضح از شکست "ناشناس شدن" از اواخر دهه 1990 در ماساچوست به دست می آید (Sweeney 2002) . کمیسیون بیمه گروه (GIC) یک سازمان دولتی بود که مسئول خرید بیمه درمانی برای تمام کارمندان دولتی بود. از طریق این کار، GIC پرونده های بهداشتی دقیق درباره هزاران نفر از کارمندان دولت را جمع آوری کرد. در تلاش برای تحریک پژوهش، GIC تصمیم گرفت تا این رکوردها را به محققین انتشار دهد. با این حال، آنها تمام داده های خود را به اشتراک گذاشتن نیست. آنها این اطلاعات را با حذف اطلاعات از قبیل نام و آدرس، "ناشناس" می کنند. با این وجود، اطلاعات دیگر را که می توانستند برای محققان مانند اطلاعات دموگرافیک (کد پستی، تاریخ تولد، قومیت و جنسیت) و اطلاعات پزشکی (اطلاعات بازدید، تشخیص، روش) (محرمانه 6.4) (Ohm 2010) مفید دانست، مفید می دانستند. متأسفانه این «شناسایی» برای حفاظت از داده ها کافی نبود.

شکل 6.4: شناسایی فرآیند حذف اطلاعات به طور واضح شناسایی است. برای مثال، کمپین بیمه گروه ماساچوست (GIC) هنگام اخذ اسناد بیمه پزشکی کارمندان دولتی نام و آدرس از پرونده ها را حذف کرد. من از علامت نقل قول در اطراف لغت کلمه استفاده می کنم زیرا این فرایند ظاهر ناشناسی را ارائه می دهد، اما ناشناس بودن واقعی نیست.

شکل 6.4: "شناسایی" فرآیند حذف اطلاعاتی است که به وضوح شناسایی شده است. برای مثال، کمپین بیمه گروه ماساچوست (GIC) هنگام اخذ اسناد بیمه پزشکی کارمندان دولتی نام و آدرس از پرونده ها را حذف کرد. من از علامت نقل قول ها در اطراف کلمه «ناشناس» استفاده می کنم زیرا این فرایند ظاهر نامناسبی را ارائه می دهد، اما ناشناس بودن واقعی نیست.

برای نشان دادن نقصهای ناشناس بودن GIC، Latanya Sweeney، دانشجوی فارغ التحصیل MIT، مبلغ 20 دلار برای کسب پرونده رای گیری از شهر کمبریج، زادگاه ویلیام Weld، فرماندار ماساچوست، پرداخت. این پرونده های رای گیری شامل اطلاعاتی مانند نام، آدرس، کد پستی، تاریخ تولد و جنسیت بود. این واقعیت که فایل داده های پزشکی و فایل رای دهندگان زمینه های کد پستی، تاریخ تولد و جنسیت را به اشتراک گذاشت، بدین معنی است که سوئینی می تواند آنها را پیوند دهد. سوئینی می دانست که روز تولد Weld در 31 ژوئیه 1945 بود و پرونده های رأی گیری فقط شامل شش نفر در کمبریج با آن روز تولد بود. علاوه بر این، از شش نفر، فقط سه مرد بودند. و از این سه مرد تنها یک کد پستی Weld مشترک داشت. بنابراین، اطلاعات رای گیری نشان داد که هر کسی که در اطلاعات پزشکی با ترکیب Weld از تاریخ تولد، جنسیت و کد پستی ویلیام Weld بود. در اصل، این سه جزء اطلاعات، اثر انگشت منحصر به فردی را در اختیار او گذاشتند. با استفاده از این واقعیت، سوینی توانست سوابق پزشکی وی را پیدا کند و او را از تجربیاتش مطلع کرد و او یک کپی از پرونده های او (Ohm 2010) .

شکل 6.5: شناسایی مجدد داده های ناشناس. Latanya Sweeney پرونده های بهداشت ناشناس را با پرونده های رأی گیری ترکیب کرد تا پرونده پزشکی William Weld، فرماندار را که از سویین (2002)، شکل 1، اقتباس شده است، ترکیب کند.

شکل 6.5: شناسایی مجدد داده های "ناشناس". Latanya Sweeney سوابق بهداشتی "ناشناس" را با پرونده های رأی گیری ترکیب کرد تا پرونده پزشکی ویلیام جوش، فرماندار را که از Sweeney (2002) ، شکل 1، اقتباس شده است، پیدا کند.

کار Sweeney ساختار اساسی حملات شناسایی مجدد را نشان می دهد تا یک اصطلاح را از جامعه امنیتی کامپیوتر بگیرد. در این حملات، دو مجموعه داده، که هیچ یک از آنها اطلاعات حساس را نشان نمی دهد، مرتبط هستند و از طریق این ارتباط، اطلاعات حساس در معرض قرار می گیرند.

در پاسخ به کار سوئینی و دیگر کارهای مرتبط، محققان در حال حاضر به طور کلی اطلاعات زیادی را به نام «اطلاعات شخصی شناسایی» (Narayanan and Shmatikov 2010) طی روند «شناسایی»، حذف می کنند. علاوه بر این، بسیاری از محققان اکنون متوجه شدم که داده های خاص مانند پرونده پزشکی، پرونده های مالی، به سوالات مربوط به رفتارهای غیر قانونی پاسخ می دهند، احتمالا خیلی پس از شناسایی ناخودآگاه به انتشار بازمی گردند. با این حال، نمونه هایی که می خواهم نشان دهم که محققان اجتماعی نیاز دارند برای تغییر تفکر خود. به عنوان اولین قدم، عاقلانه است فرض کنیم که تمام داده ها به طور بالقوه قابل شناسایی هستند و تمام داده ها بالقوه حساس هستند. به عبارت دیگر، به جای فکر کردن بر این که خطر اطلاعاتی به یک زیر مجموعه کوچک از پروژه ها اعمال می شود، باید فرض کنیم که آن را در برخی از موارد به تمام پروژه ها اعمال می کنیم.

هر دو جنبه از این تغییر جهت توسط Prifi Netflix نشان داده شده است. همانطور که در فصل 5 توضیح داده شد، Netflix نسخه 100 میلیون فیلم ارائه شده توسط تقریبا 500000 عضو را منتشر کرد و یک تماس باز داشت که مردم از سراسر جهان الگوریتم هایی را ارائه می دادند که می توانست قابلیت Netflix را برای توصیه فیلم ها بهبود بخشد. قبل از انتشار داده ها، Netflix هرگونه اطلاعات شناسایی شخصی را، مانند نام، حذف کرد. آنها همچنین یک گام اضافی رفتند و برخی از اختلالات را در بعضی از سوابق نشان دادند (مثلا تغییر بعضی از امتیازات از 4 ستاره به 3 ستاره). با این حال، آنها به زودی کشف کردند که با وجود تلاش های خود، اطلاعات هنوز به هیچ وجه ناشناس نیستند.

فقط دو هفته پس از انتشار اطلاعات، Arvind Narayanan و ویتالی Shmatikov (2008) نشان داد که ممکن است در مورد تنظیمات فیلم افراد خاص یاد بگیرند. کلاهبرداری برای حمله دوباره شناسایی آنها شبیه سوئینی بود: دو منبع اطلاعاتی را با یکدیگر ترکیب کرده و یکی با اطلاعات بالقوه حساس و بدون اطلاعات مشخص و یک شناسایی که هویت مردم را شامل می شود. هر یک از این منابع داده ممکن است به طور جداگانه ایمن باشند، اما هنگامی که آنها ترکیب شوند، مجموعه داده های ادغام شده می تواند خطر اطلاعاتی ایجاد کند. در مورد داده Netflix، در اینجا این است که چگونه ممکن است اتفاق بیافتد. تصور کنید که من تصمیم می گیرم افکار من در مورد فیلم های اکشن و کمدی را با همکارانم به اشتراک بگذارم، اما من ترجیح می دهم نظرات من در مورد فیلم های مذهبی و سیاسی را به اشتراک نگذارم. همکارانم می توانند اطلاعاتی را که با آنها به اشتراک گذاشتم، برای پیدا کردن سوابق من در داده Netflix استفاده کنم؛ اطلاعاتی که من به اشتراک میگذارم میتواند یک اثر انگشت منحصر به فرد باشد درست مانند تاریخ تولد ویلیام و جولد، کد پستی و جنسیت. سپس، اگر آنها اثر انگشت منحصر به فرد من در داده ها را پیدا کردند، می توانند رأی من درباره تمام فیلم ها، از جمله فیلم هایی را که من بخواهم به اشتراک بگذارم، یاد بگیرم. علاوه بر این نوع حمله هدفمند که تنها بر روی یک فرد متمرکز بود، نارایانان و شماتیکوف نیز نشان دادند که ممکن است حمله گسترده ای انجام شود که شامل بسیاری از افراد است - با ادغام داده Netflix با داده های شخصیتی و فیلم که برخی از آنها انتخاب کرده اند برای ارسال در پایگاه اینترنتی فیلم اینترنتی (IMDb). به سادگی، هر گونه اطلاعاتی که یک اثر انگشت منحصر به فرد برای یک فرد خاص است - حتی مجموعه ای از رتبه بندی فیلم - می تواند برای شناسایی آنها استفاده شود.

با وجود اینکه داده های Netflix را می توان در یک حمله هدفمند یا وسیع شناسایی مجدد شناسایی کرد، هنوز هم ممکن است به نظر کم خطر باشد. پس از همه، رتبه بندی فیلم به نظر نمی رسد بسیار حساس است. در حالی که این ممکن است به طور کلی درست باشد، برای بعضی از 500،000 نفر در مجموعه داده ها، رتبه بندی فیلم ها ممکن است خیلی حساس باشد. در حقیقت، در پاسخ به شناسایی دوباره، یک زن لزبین نزدیک و متصل به یک تقاضای کلاس در برابر Netflix. در اینجا چگونگی این مشکل در دعوی قضایی (Singel 2009) :

"اطلاعات [M] ovie و رتبه بندی حاوی اطلاعاتی از ... طبیعت بسیار شخصی و حساس است. داده های فیلم عضو، شخصیت شخصی Netflix و / یا مبارزه با مسائل بسیار شخصی شخصی از قبیل جنسیت، بیماری روحی، بهبودی از مشروبات الکلی و قربانی کردن از تجاوز جنسی، سوء استفاده فیزیکی، خشونت خانگی، زنا و تجاوز جنسی است. "

شناسایی مجدد داده های جایزه Netflix نشان می دهد که هر دو داده ها به طور بالقوه قابل شناسایی هستند و تمام اطلاعات بالقوه حساس هستند. در این مرحله، ممکن است فکر کنید که این فقط مربوط به داده هایی است که به نظر می رسد در مورد مردم است. بدیهی است، این مورد نیست در پاسخ به درخواست قانون آزادی اطلاعات، دولت شهر نیویورک سوابق هر سواری تاکسی در نیویورک در سال 2013 را منتشر کرد، از جمله زمان و مکان دفن، مکان و هزینه کرایه (از فصل 2 که Farber (2015) داده های مشابه برای تست نظریه های مهم در اقتصاد کار استفاده می شود). این اطلاعات در مورد سفرهای تاکسی ممکن است خوشایند به نظر برسد، زیرا به نظر نمی رسد اطلاعات را در مورد مردم ارائه کنند، اما آنتونی تاکر متوجه شد که این مجموعه تاکسی در واقع شامل اطلاعات زیادی درباره افراد بالقوه حساس است. برای نشان دادن، او در تمام سفرهای شروع شده از باشگاه Hustler، یک باشگاه نوار بزرگ در نیویورک، بین نیمه شب و 6 صبح نگاه کرد و سپس مکان های افتتاحیه خود را پیدا کرد. این جستجو نشان داد که در واقع، لیستی از آدرس هایی از افرادی که باشگاه Hustler را داشتند (Tockar 2014) . دشوار است تصور کنید که دولت شهر در هنگام عرضه داده ها این را ذکر کرده است. در حقیقت، همین روش را می توان برای پیدا کردن آدرس های خانه افرادی که از هر مکان در شهر دیدن می کنند، یک کلینیک پزشکی، یک ساختمان دولتی یا یک موسسه مذهبی است.

این دو مورد از جایزه Netflix و داده های تاکسی شهر نیویورک نشان می دهد که افراد نسبتا ماهر می توانند به درستی برآورد خطر اطلاعات را در داده هایی که منتشر می کنند نادیده بگیرند و این موارد به هیچ وجه منحصر به فرد نیستند (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . علاوه بر این، در بسیاری از موارد، داده های مشکل ساز همچنان آزادانه در دسترس در اینترنت هستند، که نشان دهنده دشواری لغو انتشار اطلاعات است. به طور خلاصه، این نمونه ها و همچنین تحقیقات در زمینه علوم رایانه درباره حریم خصوصی، نتیجه گیری مهمی است. محققان باید فرض کنند که تمام داده ها به طور بالقوه قابل شناسایی هستند و تمام اطلاعات بالقوه حساس هستند.

متاسفانه، هیچ راه حل ساده ای برای حقایق وجود ندارد که تمام داده ها به طور بالقوه قابل شناسایی باشند و تمام اطلاعات بالقوه حساس باشند. با این حال، یک راه برای کاهش خطر اطلاعاتی در حالی که شما در حال کار با داده ها است، ایجاد و پیگیری یک برنامه حفاظت از داده ها است . این طرح احتمال این که اطلاعات شما نشت شود کاهش خواهد یافت و اگر نشتی به نحوی رخ دهد آسیب را کاهش دهد. ويژگی برنامه های محافظت از داده ها، مانند کدام نوع رمزگذاری برای استفاده، با گذشت زمان تغییر خواهد کرد، اما سرویس داده های انگلیس، اجزای یک برنامه حفاظت از داده را به پنج دسته طبقه بندی می کند که آنها پنج سپر را می نامند: پروژه های ایمن، افراد سالم ، تنظیمات ایمن، داده های ایمن و خروجی های امن (جدول 6.2) (Desai, Ritchie, and Welpton 2016) . هیچ کدام از پنج سفس به طور جداگانه حفاظت کامل ندارند. اما با هم، آنها یک مجموعه قدرتمند از عوامل را تشکیل می دهند که می توانند خطر اطلاعاتی را کاهش دهند.

جدول 6.2: "پنج قالب"، اصول طراحی و اجرای طرح حفاظت از اطلاعات (Desai, Ritchie, and Welpton 2016)
بی خطر عمل
پروژه های ایمن محدود کردن پروژه ها با داده ها به کسانی که اخلاقی هستند
افراد امن دسترسی به افرادی است که می توانند با اطلاعات اطمینان داشته باشند (به عنوان مثال افرادی که تحت آموزش اخلاقی قرار گرفته اند)
داده های ایمن داده ها شناسایی و جمع آوری می شوند تا حد امکان
تنظیمات ایمن داده ها در رایانه هایی با فضای مناسب (مانند اتاق قفل شده) و نرم افزار (به عنوان مثال، حفاظت از رمز عبور، رمزگذاری شده) محافظت می شوند
خروجی ایمن خروجی تحقیق برای جلوگیری از نقض حریم خصوصی اتفاقی مورد بررسی قرار گرفته است

علاوه بر محافظت از اطلاعات شما در هنگام استفاده از آنها، یک گام در روند تحقیقاتی که در آن خطر اطلاعاتی به ویژه برجسته است، به اشتراک گذاری داده ها با سایر محققان است. به اشتراک گذاری داده ها در میان دانشمندان ارزش اصلی تلاش های علمی است و دانش پیشرفته را بسیار تسهیل می کند. در اینجا این است که چگونه مجلس عوام انگلستان اهمیت به اشتراک گذاری داده ها را توضیح داد (Molloy 2011) :

"دسترسی به داده ها، اگر محققان برای تکثیر، تأیید و ایجاد نتایجی که در ادبیات گزارش شده اند، بنیادی باشند، اساسی است. پیش فرض باید باشد، مگر اینکه یک دلیل قوی وجود دارد در غیر این صورت، داده ها باید به طور کامل افشا شده و به طور عمومی در دسترس باشند. "

با این حال، با به اشتراک گذاشتن اطلاعات خود با پژوهشگر دیگری، ممکن است افزایش خطر اطلاعات برای شرکت کنندگان شما افزایش یابد. بنابراین ممکن است به نظر برسد که به اشتراک گذاری داده یک تنش اساسی بین تعهد به اشتراک گذاشتن اطلاعات با دانشمندان دیگر و تعهد به حداقل رساندن خطر اطلاعات برای شرکت کنندگان ایجاد می کند. خوشبختانه این معضل به اندازه ظاهری سخت نیست. در عوض، بهتر است در مورد به اشتراک گذاشتن داده ها به عنوان یک درهم آمیختن فکر کنید، هر کدام از این مختصات ترکیبی متفاوت از منافع جامعه و خطر برای شرکت کنندگان است (شکل 6.6).

در یک افراط، شما می توانید اطلاعات خود را با هیچ کس به اشتراک نگذارید، که خطر ابتلا به شرکت کنندگان را به حداقل می رساند، اما به سود جامعه نیز می رساند. در افراطی دیگر، شما می توانید آزاد و فراموش کنید ، جایی که داده ها "ناشناس" و ارسال شده برای همه. نسبت به آزاد شدن داده ها، آزاد شدن و فراموش کردن، مزایای بالاتری را برای جامعه و خطر بیشتر برای شرکت کنندگان ارائه می دهد. در بین این دو مورد افراطی طیف وسیعی از هیبرید ها، از جمله آنچه که من خواهم نامید رویکرد باغ دیواره است. تحت این رویکرد، داده ها با افرادی که معیارهای خاصی را دارند و با قوانین خاص موافقت می کنند (مانند نظارت از IRB و یک برنامه حفاظت از داده ها) به اشتراک گذاشته می شود. رویکرد باغ دیوار، بسیاری از مزایای انتشار را فراهم می کند و با کمترین خطر فراموش می شود. البته چنین رویکردی بسیاری از سوالات را مطرح می کند - چه کسانی باید در چه شرایطی و چه مدت، چه کسی باید پرداخت کند تا باغچه های دیواره ای را حفظ و پلیس پرداخت کند، و غیره، اما این غیرقابل تحمل نیست. در حقیقت، در حال حاضر باغ های دیواره ای وجود دارد که محققان می توانند از آن استفاده کنند، مانند آرشیو داده های کنسرسیوم بین دانشگاه برای تحقیقات سیاسی و اجتماعی در دانشگاه میشیگان.

شکل 6.6: استراتژی های انتشار اطلاعات می توانند در امتداد یک پیوستگی سقوط کنند. جایی که باید در این پیوستگی باشید، به جزئیات خاص اطلاعاتتان بستگی دارد و بررسی شخص ثالث ممکن است به شما در تعیین رضایت مناسب و رفاه در مورد شما کمک کند. شکل دقیق این منحنی بستگی به مشخصات داده ها و اهداف تحقیق دارد (Goroff 2015).

شکل 6.6: استراتژی های انتشار اطلاعات می توانند در امتداد یک پیوستگی سقوط کنند. جایی که باید در این پیوستگی باشید، به جزئیات خاص اطلاعاتتان بستگی دارد و بررسی شخص ثالث ممکن است به شما در تعیین رضایت مناسب و رفاه در مورد شما کمک کند. شکل دقیق این منحنی بستگی به مشخصات داده ها و اهداف تحقیق دارد (Goroff 2015) .

بنابراین، کجا باید اطلاعات مربوط به مطالعه شما بر روی پیوستن بدون به اشتراک گذاشتن، گنجاندن باغچه و آزاد شدن و فراموش کردن آن باشد؟ این بستگی به جزئیات داده های شما دارد: محقق باید تعادل احترام برای افراد، مزایا، عدالت، و احترام به قانون و منافع عمومی را تعادل. از این منظر مشاهده شده است که به اشتراک گذاری داده ها یک مفهوم اخلاقی متمایز نیست؛ این تنها یکی از جنبه های بسیاری از پژوهش است که در آن محققان باید تعادل اخلاقی مناسب را پیدا کنند.

بعضی از منتقدان به طور کلی مخالف اشتراک گذاری داده ها هستند، زیرا به نظر من، آنها بر روی خطرات آن متمرکز هستند که بدون شک واقعی هستند و از مزایای آن نادیده گرفته می شوند. بنابراین، برای تشویق تمرکز بر روی هر دو ریسک و منافع، من می خواهم یک تقلید را ارائه دهم. هر سال، خودروها هزاران مرگ را مرتکب می شوند، اما ما تلاش نمی کنیم رانندگی را ممنوع کنیم. در واقع، تماس ممنوعیت رانندگی پوچ است زیرا رانندگی بسیاری از چیزهای شگفت انگیز را قادر می سازد. در عوض، جامعه محدودیت هایی را برای کسانی که می توانند رانندگی کنند (به عنوان مثال، نیاز به سن خاصی دارند و آزمایشات خاصی را انجام می دهند) و اینکه چگونه می توانند رانندگی کنند (به عنوان مثال، در حد محدودیت سرعت). جامعه همچنین افرادی را به اجرای این قوانین (به عنوان مثال پلیس) اختصاص داده است و ما مجازات افرادی را که مورد نقض آنها قرار گرفته اند مجازات می کنیم. این همان نوع تفکر متعادل است که جامعه برای تنظیم رانندگی اعمال می کند همچنین می تواند به اشتراک گذاری داده ها اعمال شود. به این ترتیب، به جای اینکه از استدلال مطلق برای یا به اشتراک گذاری داده ها استفاده کنیم، من فکر می کنم پیشرفت بیشتر را با تمرکز بر اینکه چگونه می توانیم خطرات را کاهش دهیم و مزایای استفاده از اشتراک داده را افزایش دهیم، افزایش می دهیم.

نتیجه گیری: خطر اطلاعاتی به طرز چشمگیری افزایش یافته است و پیش بینی و اندازه گیری آن بسیار سخت است. بنابراین بهتر است فرض کنیم که تمام داده ها به طور بالقوه شناسایی و بالقوه حساس هستند. محققان می توانند برای کاهش خطر اطلاعاتی در حین انجام تحقیق، یک طرح حفاظت از داده را ایجاد و پیگیری کنند. علاوه بر این، خطر اطلاعاتی از محققان اجازه نمی دهد اطلاعات را با دیگر دانشمندان به اشتراک بگذارند.