6.6.2 Uelewa na kusimamia habari hatari

Hatari ya habari ni hatari ya kawaida katika utafiti wa kijamii; imeongezeka kwa kasi; na ni hatari ngumu kuelewa.

Jitihada ya pili ya kimaadili kwa utafiti wa umri wa miaka ni hatari ya habari , uwezekano wa madhara kutokana na ufunuo wa habari (National Research Council 2014) . Uharibifu wa habari kutoka kwa ufunuo wa taarifa za kibinafsi inaweza kuwa kiuchumi (kwa mfano, kupoteza kazi), kijamii (kwa mfano, aibu), kisaikolojia (kwa mfano, unyogovu), au hata wahalifu (kwa mfano, kukamatwa kwa tabia isiyo rasmi). Kwa bahati mbaya, umri wa digital huongeza hatari ya habari kwa kiasi kikubwa-kuna taarifa tu zaidi kuhusu tabia zetu. Na hatari ya habari imethibitika kuwa vigumu sana kuelewa na kusimamia ikilinganishwa na hatari ambazo zilikuwa na wasiwasi katika utafiti wa kijamii wa umri wa kale, kama hatari ya kimwili.

Njia moja ambayo watafiti kijamii kupunguza hatari ya habari ni "anonymization" ya data. "Anonymization" ni mchakato wa kuondoa dhahiri vitambulisho vya binafsi kama vile jina, anwani, na namba ya simu kutoka data. Hata hivyo, mbinu hii ni kidogo sana ufanisi zaidi kuliko watu wengi kutambua, na ni, kwa kweli, kwa undani na kimsingi mdogo. Kwa sababu hiyo, wakati mimi kuelezea "anonymization," Mimi itabidi kutumia alama quotation kuwakumbusha kwamba mchakato huu inajenga kuonekana ya kutotajwa lakini si kutotajwa kweli.

Mfano usio wazi wa kushindwa kwa "anonymous" unatoka mwishoni mwa miaka ya 1990 huko Massachusetts (Sweeney 2002) . Tume ya Bima ya Bima (GIC) ilikuwa shirika la serikali linalohusika na ununuzi wa bima ya afya kwa wafanyakazi wote wa serikali. Kupitia kazi hii, GIC ilikusanya rekodi za afya za kina kuhusu maelfu ya wafanyakazi wa serikali. Kwa jitihada za kuchochea uchunguzi, GIC iliamua kufungua rekodi hizi kwa watafiti. Hata hivyo, hawakugawana data zao zote; badala, wao "walionyeshea" data hizi kwa kuondoa taarifa kama majina na anwani. Hata hivyo, waliacha maelezo mengine ambayo walidhani inaweza kuwa na manufaa kwa watafiti kama habari za idadi ya watu (zip code, tarehe ya kuzaliwa, ukabila, na ngono) na maelezo ya matibabu (tembelea data, utambuzi, utaratibu) (Takwimu 6.4) (Ohm 2010) . Kwa bahati mbaya, "maonyesho" haya hayakuwezesha kulinda data.

Mchoro 6.4: Anonymous ni mchakato wa kuondoa taarifa ya wazi ya kutambua. Kwa mfano, wakati wa kutoa rekodi ya bima ya matibabu ya wafanyakazi wa serikali, Tume ya Bima ya Bima ya Massachusetts (GIC) imeondoa majina na anwani kutoka kwenye faili. Ninatumia alama za nukuu karibu na neno lisilojulikana kwa sababu mchakato hutoa kuonekana kwa kutokujulikana lakini sio kujulikana kwa kweli.

Mchoro 6.4: "Anonymization" ni mchakato wa kuondoa taarifa ya wazi ya kutambua. Kwa mfano, wakati wa kutoa rekodi ya bima ya matibabu ya wafanyakazi wa serikali, Tume ya Bima ya Bima ya Massachusetts (GIC) imeondoa majina na anwani kutoka kwenye faili. Ninatumia alama za nukuu karibu na neno "anonymous" kwa sababu mchakato hutoa kuonekana kwa kutokujulikana lakini sio kujulikana halisi.

Ili kuonyesha uhaba wa GIC "udanganyifu", Latanya Sweeney-kisha mwanafunzi aliyehitimu katika MIT-kulipwa $ 20 ili kupata rekodi za kupiga kura kutoka mji wa Cambridge, mji mkuu wa mkoa wa Massachusetts William Weld. Rekodi hizi za kupiga kura zilijumuisha maelezo kama vile jina, anwani, zip code, tarehe ya kuzaliwa, na jinsia. Ukweli kwamba faili ya data ya matibabu na faili ya wapiga kura iligawana msimbo wa zip-shamba, tarehe ya kuzaliwa, na ngono-inamaanisha kuwa Sweeney inaweza kuwaunganisha. Sweeney alijua kwamba siku ya kuzaliwa ya Weld ilikuwa Julai 31, 1945, na kumbukumbu za kupiga kura zilijumuisha watu sita tu huko Cambridge na siku hiyo ya kuzaliwa. Zaidi ya hayo, watu sita, watatu tu walikuwa wanaume. Na, kwa wale watu watatu, ni moja tu iliyoshirikishwa na zip code ya Weld. Kwa hiyo, data ya kupiga kura ilionyesha kwamba mtu yeyote katika data ya matibabu na mchanganyiko wa Weld ya tarehe ya kuzaliwa, jinsia, na zip code alikuwa William Weld. Kwa asili, vipande hivi vya habari vitatu vinatoa vidole vya kipekee kwenye data. Kutumia ukweli huu, Sweeney aliweza kupata rekodi ya matibabu ya Weld, na, ili kumjulisha, na kumpeleka nakala ya kumbukumbu zake (Ohm 2010) .

Kielelezo 6.5: Re-idenification ya data isiyoonyeshwa. Latanya Sweeney pamoja na rekodi za afya zilizoonyeshwa na rekodi za kupiga kura ili kupata kumbukumbu za matibabu ya Gavana William Weld Iliyotokana na Sweeney (2002), sura ya 1.

Mchoro 6.5: Re-idenification ya data "isiyoonyeshwa". Latanya Sweeney pamoja na kumbukumbu za "afya" zilizohifadhiwa na rekodi za kupiga kura ili kupata kumbukumbu za matibabu ya Gavana William Weld Iliyotokana na Sweeney (2002) , sura ya 1.

Kazi ya Sweeney inaonyesha muundo wa msingi wa mashambulizi ya kutambua tena- kupitisha muda kutoka kwa jamii ya usalama wa kompyuta. Katika mashambulizi haya, seti mbili za data, wala ambayo yenyewe huonyesha taarifa nyeti, zinaunganishwa, na kwa njia hii, habari nyeti hufunuliwa.

Kwa kukabiliana na kazi ya Sweeney, na kazi nyingine inayohusiana, watafiti sasa (Narayanan and Shmatikov 2010) maelezo mengi zaidi-yote inayoitwa "habari ya kutambua kibinafsi" (PII) (Narayanan and Shmatikov 2010) kuhakikisha mchakato wa "maonyesho." Zaidi ya hayo, watafiti wengi sasa kutambua kwamba data fulani-kama rekodi za matibabu, rekodi za kifedha, majibu ya maswali ya utafiti kuhusu tabia haramu-labda ni nyeti sana kutolewa hata baada ya "kufanana." Hata hivyo, mifano ambayo nina karibu kutoa inaonyesha kuwa watafiti wa kijamii wanahitaji kubadili mawazo yao. Kama hatua ya kwanza, ni busara kudhani kwamba data zote zinaweza kutambulika na data zote zinaweza kuwa nyeti. Kwa maneno mengine, badala ya kufikiri kuwa hatari ya habari hutumika kwa subset ndogo ya miradi, tunapaswa kudhani kwamba inatumika-kwa kiasi fulani-kwa miradi yote.

Masuala yote ya reorientation hii yanaonyeshwa na Tuzo ya Netflix. Kama ilivyoelezwa katika sura ya 5, Netflix ilitoa ratings za movie milioni 100 zinazotolewa na wanachama karibu 500,000, na zimekuwa na wito wazi ambapo watu kutoka duniani kote waliwasilisha taratibu zinazoweza kuboresha uwezo wa Netflix kupendekeza sinema. Kabla ya kufungua data, Netflix iliondoa maelezo yoyote ya wazi ya kutambua binafsi, kama majina. Walikwenda pia hatua ya ziada na kuanzisha uharibifu kidogo katika baadhi ya rekodi (kwa mfano, kubadilisha baadhi ya ratings kutoka nyota 4 hadi nyota 3). Waligundua hivi karibuni, hata hivyo, kwamba licha ya jitihada zao, data bado haijajulikana.

Wiki mbili tu baada ya kutolewa data, Arvind Narayanan na Vitaly Shmatikov (2008) walionyesha kuwa inawezekana kujifunza kuhusu mapendekezo ya watu maalum ya filamu. Udanganyifu kwenye shambulio la utambuzi wao ulikuwa sawa na Sweeney's: kuunganisha pamoja vyanzo viwili vya habari, moja yenye taarifa zinazoweza kuwa na habari na hakuna habari ya kutambua wazi na yenye sifa za watu. Kila moja ya vyanzo hivi vya data inaweza kuwa salama moja kwa moja, lakini wakati ni pamoja, dataset iliyounganishwa inaweza kujenga hatari ya habari. Katika kesi ya data Netflix, hapa ni jinsi gani inaweza kutokea. Fikiria kwamba mimi kuchagua kushiriki mawazo yangu juu ya vitendo na sinema ya kupendeza na wafanyakazi wangu wafanya kazi, lakini siipenda kushiriki maoni yangu kuhusu sinema za kidini na za kisiasa. Wafanyakazi wenzangu wanaweza kutumia maelezo ambayo nimewashirikisha nao kupata kumbukumbu zangu kwenye data ya Netflix; maelezo ambayo mimi kushiriki inaweza kuwa kidole cha pekee kama vile tarehe ya kuzaliwa ya William Weld, zip code, na ngono. Kisha, ikiwa waligundua vidole vyangu vya kipekee vya data, wangeweza kujifunza upimaji wangu kuhusu sinema zote, ikiwa ni pamoja na sinema ambazo mimi huchagua kutoshiriki. Mbali na aina hii ya mashambulizi yaliyolenga yaliyotokana na mtu mmoja, Narayanan na Shmatikov pia walionyesha kuwa inawezekana kufanya mashambulizi makubwa -moja kuwashirikisha watu wengi-kwa kuunganisha data ya Netflix na data binafsi na movie rating kwamba watu wengine wamechagua ili kuchapisha kwenye Hifadhi ya Kisasa ya Internet (IMDb). Kwa urahisi tu, taarifa yoyote ambayo ni alama ya kidole ya pekee kwa mtu maalum-hata seti ya makadirio ya filamu-inaweza kutumika kutambua yao.

Ingawa data ya Netflix inaweza kupatikana tena katika mashambulizi yaliyotengwa au pana, bado inaweza kuonekana kuwa hatari ndogo. Baada ya yote, ukaguzi wa filamu hauonekani kuwa nyeti sana. Ingawa hiyo inaweza kuwa ya kweli kwa ujumla, kwa baadhi ya watu 500,000 katika dasaset, ukadiriaji wa filamu unaweza kuwa nyeti kabisa. Kwa kweli, kwa kukabiliana na kitambulisho cha upya, mwanamke aliyekuwa na msichana wa karibu alijiunga na suti ya hatua ya darasa dhidi ya Netflix. Hapa ndivyo tatizo lilivyoelezewa katika kesi yao (Singel 2009) :

"[M] ovie na data rating ina habari ya ... sana binafsi na nyeti asili. Data ya mwanachama wa filamu inafungua maslahi binafsi ya mwanachama wa Netflix na / au anajitahidi na masuala mbalimbali ya kibinafsi, ikiwa ni pamoja na ngono, ugonjwa wa akili, upungufu wa ulevi, na unyanyasaji kutoka kwa mimba, unyanyasaji wa kimwili, unyanyasaji wa nyumbani, uzinzi, na ubakaji. "

Takwimu mpya ya Tuzo ya Netflix inaonyesha wote kwamba data zote zinaweza kutambuliwa na kwamba data zote zinaweza kuwa nyeti. Kwa hatua hii, unaweza kufikiri kwamba hii inatumika tu kwa data ambayo inataja kuwa juu ya watu. Kwa kushangaza, hiyo sivyo. Kwa kuitikia ombi la Sheria ya Uhuru wa Habari, Serikali ya New York City ilitoa rekodi ya kila safari ya teksi huko New York mwaka 2013, ikiwa ni pamoja na kupiga picha na kuacha mara, maeneo, na kiasi cha kulipa (kumbuka kutoka sura ya 2 Farber (2015) kutumika data sawa ili kupima nadharia muhimu katika uchumi wa ajira). Takwimu hizi kuhusu safari za teksi zinaweza kuonekana kuwa mbaya kwa sababu hazionekani kutoa taarifa juu ya watu, lakini Anthony Tockar alitambua kwamba dataset hii ya teksi kwa kweli ilikuwa na taarifa nyingi zinazoweza kuwa nyeti kuhusu watu. Kwa mfano, aliangalia safari zote kuanzia kwenye Hustler Club-klabu kubwa ya strip huko New York-katikati ya usiku wa manane na 6 asubuhi na kisha kupatikana maeneo yao ya kuacha. Utafutaji huu umefunuliwa katika kiini-orodha ya anwani za watu wengine ambao (Tockar 2014) klabu ya Hustler (Tockar 2014) . Ni vigumu kufikiri kwamba serikali ya jiji ilikuwa na jambo hili katika akili wakati ilitoa data. Kwa kweli, mbinu hiyo hiyo inaweza kutumika kutafuta anwani za nyumbani za watu ambao wanatembelea mahali popote katika mji-kliniki ya matibabu, jengo la serikali, au taasisi ya kidini.

Matukio haya mawili ya Tuzo ya Netflix na takwimu za teksi za New York City zinaonyesha kwamba watu wenye ujuzi wanaweza kushindwa kuzingatia kwa usahihi hatari ya habari katika data wanazowaachilia-na hizi kesi sio pekee (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Zaidi ya hayo, katika matukio mengi hayo, data tatizo bado inapatikana kwa urahisi mtandaoni, na kuonyesha shida ya kuondosha kutolewa kwa data. Kwa pamoja, mifano hizi-pamoja na utafiti katika sayansi ya kompyuta kuhusu usiri-kusababisha uamuzi muhimu. Watafiti wanapaswa kudhani kwamba data zote zinaweza kutambulika na data zote zinaweza kuwa nyeti.

Kwa bahati mbaya, hakuna suluhisho rahisi kwa ukweli kwamba data zote zinaweza kutambulika na kwamba data zote zinaweza kuwa nyeti. Hata hivyo, njia moja ya kupunguza hatari ya habari wakati unafanya kazi na data ni kujenga na kufuata mpango wa ulinzi wa data . Mpango huu utapunguza uwezekano wa kuwa data yako itavuja na itapungua madhara ikiwa uvujaji unafanyika kwa namna fulani. Mpangilio wa mipango ya ulinzi wa data, kama aina ya encryption kutumia, itabadilika kwa muda, lakini Huduma za Data ya Uingereza kusaidia kupanga mambo ya mpango wa ulinzi wa data katika makundi matano ambayo wao wito safari tano : miradi salama, salama watu , mazingira salama, data salama, na matokeo salama (meza 6.2) (Desai, Ritchie, and Welpton 2016) . Hakuna salama tano moja kwa moja hutoa ulinzi kamilifu. Lakini pamoja wao huunda seti ya nguvu ambazo zinaweza kupunguza hatari ya habari.

Jedwali 6.2: "Safari Tano" ni Kanuni za Kubuni na Kuendesha Mpango wa Ulinzi wa Takwimu (Desai, Ritchie, and Welpton 2016)
Salama Hatua
Miradi salama Inapunguza miradi na data kwa wale ambao ni maadili
Watu salama Upatikanaji ni mdogo kwa watu ambao wanaweza kuaminiwa na data (kwa mfano, watu ambao wamepata mafunzo ya maadili)
Data salama Takwimu zinatambuliwa na zimeunganishwa kwa kadiri iwezekanavyo
Mipangilio salama Takwimu zimehifadhiwa kwenye kompyuta zinazofaa kimwili (kwa mfano, chumba kilichofungwa) na programu (kwa mfano, ulinzi wa nenosiri, encrypted)
Pato salama Pato la utafiti linapitiwa upya ili kuzuia uvunjaji wa faragha wa ajali

Mbali na kulinda data yako wakati unavyotumia, hatua moja katika mchakato wa utafiti ambapo hatari ya habari ni muhimu zaidi ni kugawana data na watafiti wengine. Ushirikiano wa data kati ya wanasayansi ni thamani ya msingi ya jitihada za kisayansi, na inasaidia sana maendeleo ya ujuzi. Hapa ndivyo Nyumba ya Umoja wa Uingereza ilivyoelezea umuhimu wa kugawana data (Molloy 2011) :

"Upatikanaji wa data ni muhimu kama watafiti wanapaswa kuzaliana, kuthibitisha na kujenga juu ya matokeo yaliyoripotiwa katika vitabu. Dhana lazima iwe kwamba, isipokuwa kuna sababu kubwa vinginevyo, data inapaswa kufichuliwa kikamilifu na kufanywa kwa umma. "

Hata hivyo, kwa kugawana data yako na mtafiti mwingine, huenda ukaongeza hatari ya habari kwa washiriki wako. Kwa hiyo, inaweza kuonekana kuwa ushirikiano wa data hujenga mvutano wa msingi kati ya wajibu wa kushiriki data na wanasayansi wengine na wajibu wa kupunguza hatari ya habari kwa washiriki. Kwa bahati nzuri, shida hii si mbaya kama inavyoonekana. Badala yake, ni vyema kufikiri juu ya kugawana data kama kuanguka kwa kuendelea, na kila hatua juu ya kuendelea hiyo kutoa mchanganyiko tofauti wa faida kwa jamii na hatari kwa washiriki (takwimu 6.6).

Wakati mmoja uliokithiri, unaweza kushiriki data yako na hakuna mtu, ambayo hupunguza hatari kwa washiriki lakini pia hupunguza faida kwa jamii. Kwa upande mwingine uliokithiri, unaweza kutolewa na kusahau , ambapo data "yameonyeshwa" na imewekwa kwa kila mtu. Kuhusiana na kutotoa data, kutolewa na kusahau inatoa inatoa faida zaidi kwa jamii na hatari kubwa kwa washiriki. Katikati ya kesi hizi mbili mbaya ni aina nyingi za mahulua, ikiwa ni pamoja na kile nitachoita njia ya bustani iliyofungwa . Chini ya mbinu hii, data inashirikiwa na watu wanaofikia vigezo fulani na ambao wanakubali kuwa amefungwa na sheria fulani (kwa mfano, uangalizi kutoka kwa IRB na mpango wa ulinzi wa data). Njia ya bustani yenye viti hutoa faida nyingi za kutolewa na kusahau kwa hatari ndogo. Bila shaka, mbinu hiyo inajenga maswali mengi-ni nani wanapaswa kupata, chini ya hali gani, na kwa muda gani, ni nani anayepaswa kulipa ili kudumisha na polisi bustani iliyofungwa, nk-lakini haya hayawezi kushindwa. Kwa hakika, tayari kuna kazi za bustani zilizopigwa kwa njia ambazo watafiti wanaweza kutumia hivi sasa, kama vile kumbukumbu ya data ya Idara ya Chuo Kikuu cha Utafiti wa Siasa na Jamii katika Chuo Kikuu cha Michigan.

Mchoro 6.6: Mikakati ya kutolewa kwa data inaweza kuanguka pamoja na kuendelea. Ambapo unapaswa kuwa kwenye mwendelezo huu inategemea maelezo maalum ya data yako, na ukaguzi wa chama cha tatu unaweza kukusaidia kuamua usawa wa hatari na faida kwako. Mfano halisi wa curve hii inategemea maalum ya malengo ya data na utafiti (Gorofa 2015).

Mchoro 6.6: Mikakati ya kutolewa kwa data inaweza kuanguka pamoja na kuendelea. Ambapo unapaswa kuwa kwenye mwendelezo huu inategemea maelezo maalum ya data yako, na ukaguzi wa chama cha tatu unaweza kukusaidia kuamua usawa wa hatari na faida kwako. Mfano halisi wa curve hii inategemea maalum ya malengo ya data na utafiti (Goroff 2015) .

Kwa hivyo, ni wapi data kutoka kwenye utafiti wako iwe juu ya kuendelea kwa kugawana hakuna, bustani iliyofungwa, na kutolewa na kusahau? Hii inategemea maelezo ya data yako: watafiti wanapaswa usawa Kuheshimu Watu, Faida, Haki, na Uheshimu Sheria na Umma. Inaonekana kutokana na mtazamo huu, ushirikiano wa data sio tofauti ya maadili ya conundrum; ni moja tu ya mambo mengi ya utafiti ambayo watafiti wanapaswa kupata usawa wa maadili sahihi.

Baadhi ya wakosoaji wanapingana na kushirikiana kwa data kwa sababu, kwa maoni yangu, wanakusudia hatari zake-ambazo hakika ni halisi-na wanapuuza faida zake. Hivyo, ili kuhamasisha kuzingatia hatari na faida zote, napenda kutoa mfano. Kila mwaka, magari yanahusika na maelfu ya vifo, lakini hatujaribu kupiga marufuku kuendesha gari. Kwa hakika, simu ya kupiga marufuku kupiga marufuku itakuwa mbaya kwa sababu kuendesha gari kunawezesha mambo mengi mazuri. Badala yake, jamii inaweka vikwazo juu ya nani anayeweza kuendesha gari (kwa mfano, haja ya kuwa na umri fulani na kupitisha vipimo fulani) na jinsi wanaweza kuendesha (kwa mfano, chini ya kikomo cha kasi). Jamii pia ina watu wanaohusika na kutekeleza sheria hizi (kwa mfano, polisi), na tunawaadhibu watu ambao wanachukuliwa kukiuka. Aina hii ya kufikiri uwiano ambayo jamii inatumika kwa kusimamia kuendesha gari inaweza pia kutumika kwa kugawana data. Hiyo ni, badala ya kufanya hoja za kutosha au dhidi ya kugawana data, nadhani tutafanya maendeleo zaidi kwa kuzingatia jinsi tunavyoweza kupunguza hatari na kuongeza faida kutokana na kugawana data.

Ili kukamilisha, hatari ya habari imeongezeka kwa kasi, na ni vigumu sana kutabiri na kupima. Kwa hiyo, ni vyema kudhani kwamba data zote zinaweza kutambulika na zinaweza kuwa nyeti. Kupunguza hatari ya habari wakati wa kufanya utafiti, watafiti wanaweza kuunda na kufuata mpango wa ulinzi wa data. Zaidi ya hayo, hatari ya habari haina kuzuia watafiti kugawana data na wanasayansi wengine.