6.6.2 Uelewa na kusimamia habari hatari

Taarifa hatari ni hatari ya kawaida katika utafiti wa kijamii; ni umeongezeka kwa kasi; na ni hatari gumu kuelewa.

Pili kimaadili changamoto kwa umri kijamii utafiti digital ni hatari habari, uwezekano wa madhara kutoka kutoa taarifa ya habari (Council 2014) . madhara ya habari kutoka ufichuaji wa taarifa binafsi inaweza kuwa kiuchumi (kwa mfano, kupoteza kazi), kijamii (kwa mfano, aibu), kisaikolojia (kwa mfano, depression), au hata la jinai (kwa mfano, kukamatwa kwa tabia kinyume cha sheria). Kwa bahati mbaya, umri digital kuongezeka kwa maelezo hatari kwa kasi-kuna taarifa tu hivyo mengi zaidi kuhusu tabia zetu. Na, hatari ya habari umeonyesha vigumu sana kuelewa na kusimamia ikilinganishwa na hatari zilizokuwa wasiwasi katika Analog umri utafiti wa kijamii, kama vile hatari ya kimwili. Kuona jinsi umri digital ongezeko la hatari ya habari, fikiria mpito kutoka karatasi na kumbukumbu za elektroniki matibabu. Wote aina ya rekodi kujenga hatari, lakini kumbukumbu za elektroniki kujenga hatari kubwa sana kwa sababu kwa kiwango kikubwa wao huweza kuambukizwa kwa chama ruhusa au ilijiunga na kumbukumbu nyinginezo. watafiti wa Jamii katika umri digital tayari kukimbia katika shida na hatari ya habari, katika sehemu kwa sababu hawakuwa na kuelewa jinsi ya kupima na kuisimamia. Kwa hiyo, mimi nina kwenda kwa kutoa njia manufaa kwa kufikiri juu ya hatari ya habari, na kisha mimi nina kwenda kukupa baadhi ya ushauri wa jinsi ya kusimamia hatari ya habari katika utafiti wako na katika ikitoa data kwa watafiti wengine.

Njia moja ambayo watafiti kijamii kupunguza hatari ya habari ni "anonymization" ya data. "Anonymization" ni mchakato wa kuondoa dhahiri vitambulisho vya binafsi kama vile jina, anwani, na namba ya simu kutoka data. Hata hivyo, mbinu hii ni kidogo sana ufanisi zaidi kuliko watu wengi kutambua, na ni, kwa kweli, kwa undani na kimsingi mdogo. Kwa sababu hiyo, wakati mimi kuelezea "anonymization," Mimi itabidi kutumia alama quotation kuwakumbusha kwamba mchakato huu inajenga kuonekana ya kutotajwa lakini si kutotajwa kweli.

Mfano wazi wa kushindwa kwa "anonymization" linatokana na miaka ya 1990 katika Massachusetts (Sweeney 2002) . Bima Tume Group (GIC) alikuwa shirika la serikali kuwajibika kwa ajili ya ununuzi wa bima ya afya kwa wafanyakazi wote serikali. Kupitia kazi hii, GIC zilizokusanywa rekodi ya kina afya juu ya maelfu ya wafanyakazi wa serikali. Katika jitihada za kuchochea utafiti kuhusu njia za kuboresha afya, GIC aliamua kutolewa kumbukumbu hizi na watafiti. Hata hivyo, hawakuwa kushiriki yote ya takwimu zao; badala yake, "anonymized" ni kwa kuondoa habari kama vile jina na mahali. Hata hivyo, wakaacha taarifa nyingine kwamba walidhani inaweza kuwa na manufaa kwa watafiti kama vile idadi ya watu habari (zip code, tarehe ya kuzaliwa, ukabila, na jinsia) na matibabu habari (data ziara hiyo, utambuzi, utaratibu) (Kielelezo 6.4) (Ohm 2010) . Kwa bahati mbaya, hii "anonymization" ilikuwa si ya kutosha ili kulinda data.

Kielelezo 6.4: anonymization ni mchakato wa kuondoa ni wazi kutambua habari. Kwa mfano, wakati ikitoa matibabu rekodi bima ya wafanyakazi wa serikali Massachusetts Group Bima Tume (GIC) kuondolewa jina na anuani za mafaili. Mimi kutumia quotes kuzunguka neno anonymization kwa sababu mchakato hutoa muonekano wa kutotajwa, lakini si kutotajwa halisi.

Kielelezo 6.4: "anonymization" ni mchakato wa kuondoa ni wazi kutambua habari. Kwa mfano, wakati ikitoa matibabu rekodi bima ya wafanyakazi wa serikali Massachusetts Group Bima Tume (GIC) kuondolewa jina na anuani za mafaili. Mimi kutumia quotes kuzunguka neno "anonymization" kwa sababu mchakato hutoa muonekano wa kutotajwa, lakini si kutotajwa halisi.

Ili kuonyesha mapungufu ya GIC "anonymization", Latanya Sweeney-kisha mwanafunzi kuhitimu katika MIT-kulipwa $ 20 na kupata rekodi ya kupiga kura kutoka mji wa Cambridge, mji wa Massachusetts gavana William Weld. Kumbukumbu hizi kupiga kura ni pamoja na taarifa kama vile jina, anwani, zip code, tarehe ya kuzaliwa, na jinsia. ukweli kwamba data matibabu file na faili wapiga kura pamoja mashamba-zip code, tarehe ya kuzaliwa, na ngono-ilimaanisha kuwa Sweeney inaweza kiungo wao. Sweeney alijua kwamba siku ya kuzaliwa Weld aliitwa Julai 31, 1945, na rekodi ya kupiga kura ni pamoja na watu sita tu katika Cambridge kwa siku ya kuzaliwa hiyo. Zaidi ya hayo, kati ya watu hao sita, tatu tu walikuwa wanaume. Na, bila wale watu watatu, mmoja tu alishiriki Weld ya zip code. Hivyo, data kupiga kura ulionyesha kuwa mtu yeyote katika data matibabu na mchanganyiko Weld ya tarehe ya kuzaliwa, jinsia, na zip code alikuwa William Weld. Katika kiini, vipande hayo matatu ya taarifa zinazotolewa fingerprint kipekee kwake katika data. Kwa kutumia ukweli huu, Sweeney alikuwa na uwezo wa Machapisho Weld rekodi ya matibabu, na kwa taarifa yake ya feat yake, yeye mailed yake nakala ya rekodi yake (Ohm 2010) .

Kielelezo 6.5: Re-idenification ya data anonymized. Latanya Sweeney pamoja anonymized kumbukumbu za afya na rekodi ya kupiga kura ili kupata kumbukumbu za matibabu ya Gavana William Weld (Sweeney 2002).

Kielelezo 6.5: Re-idenification ya data "anonymized". Latanya Sweeney pamoja "anonymized" kumbukumbu za afya na rekodi ya kupiga kura ili kupata kumbukumbu za matibabu ya Gavana William Weld (Sweeney 2002) .

Kazi Sweeney ya unaeleza muundo wa msingi wa mashambulizi de-anonymization -kwa kupitisha mrefu kutoka kwa jamii ya usalama wa kompyuta. Katika mashambulizi hayo, seti mbili data, wala ambayo kwa yenyewe inaonyesha habari nyeti, ni wanaohusishwa, na kwa njia ya uhusiano huu, habari nyeti ni wazi. Katika baadhi ya njia mchakato huu ni sawa na njia ambayo kuoka soda na siki, dutu mbili ambazo ni kwa wenyewe salama, inaweza kuwa pamoja na kutoa matokeo ya nasty.

Katika kukabiliana na kazi Sweeney, na wengine kazi kuhusiana, watafiti sasa kwa ujumla kuondoa mengi zaidi maelezo-wote hivyo kuitwa "Binafsi Kutambua Habari" (PII) (Narayanan and Shmatikov 2010) -Wakati wa mchakato wa "anonymization." Zaidi ya hayo, watafiti wengi sasa kutambua kwamba baadhi ya data-kama vile rekodi ya matibabu, rekodi za fedha, majibu ya utafiti maswali kuhusu haramu tabia-pengine ni nyeti sana na kutolewa hata baada ya "anonymization." hata hivyo, mifano zaidi ya hivi karibuni kwamba mimi itabidi kuelezea chini zinaonyesha kuwa watafiti kijamii haja ya kubadili fikra zao. Kama hatua ya kwanza, ni busara kudhani kwamba data zote ni uwezekano wa zinazotambulika na data zote ni uwezekano nyeti. Kwa maneno mengine, badala ya kufikiri kuwa hatari habari inatumika kwa subset ndogo ya miradi, tunapaswa kudhani kwamba inatumika-kwa kiasi fulani-to miradi yote.

mambo yote ya hii yanayoweza kufanywa ni mfano kwa Netflix Tuzo. Kama ilivyoelezwa katika Sura ya 5, Netflix iliyotolewa milioni 100 movie ratings zinazotolewa na karibu 500,000 wanachama, na alikuwa na wito wazi ambapo watu kutoka duniani kote kuwasilishwa algorithms ambayo inaweza kuboresha uwezo Netflix kupendekeza sinema. Kabla ya kutoa data, Netflix kuondolewa taarifa yoyote ni wazi binafsi-kutambua, kama vile majina. Netflix pia akaenda hatua za ziada na vishawishi perturbations kidogo katika baadhi ya rekodi (kwa mfano, kubadilisha baadhi ratings kutoka nyota 4 na nyota 3). Netflix hivi karibuni aligundua, hata hivyo, kwamba licha ya jitihada zao, data walikuwa na hakuna njia ya majina.

Wiki mbili tu baada ya data waliachiwa huru Narayanan and Shmatikov (2008) ilionyesha kwamba ilikuwa inawezekana kujifunza kuhusu movie upendeleo maalum ya watu. hila kwa mashambulizi yao re-kitambulisho ilikuwa sawa na Sweeney ya: kuunganisha pamoja vyanzo vya habari mbili, moja kwa habari uwezekano nyeti na hakuna taarifa wazi kutambua na moja ambayo ina utambulisho wa watu. Kila moja ya haya vyanzo data inaweza kuwa mmoja mmoja salama, lakini wakati wao ni pamoja CCD zimeunganishwa wanaweza kujenga hatari ya habari. Katika kesi ya data Netflix, hapa ni jinsi gani inaweza kutokea. Fikiria kwamba mimi kuchagua kushiriki mawazo yangu kuhusu hatua na sinema comedy na yangu mwenza wafanyakazi, lakini kwamba mimi hawapendi kushiriki maoni yangu kuhusu sinema ya kidini na kisiasa. My ushirikiano wafanyakazi inaweza kutumia taarifa kwamba nimepata pamoja nao ili kupata kumbukumbu yangu katika data Netflix; habari kwamba mimi kushiriki inaweza kuwa alama za vidole kipekee tu kama tarehe William Weld ya kuzaliwa, zip code, na ngono. Kisha, kama wao kupata alama za vidole yangu ya kipekee katika data, wangeweza kujifunza ratings yangu kuhusu sinema wote, ikiwa ni pamoja sinema ambapo mimi kuchagua si kushiriki. Mbali na aina hii ya mashambulizi walengwa kulenga mtu mmoja, Narayanan and Shmatikov (2008) pia ilionyesha kwamba ilikuwa inawezekana kufanya pana mashambulizi na moja kuwashirikisha wengi watu-kwa kuunganisha data Netflix na data binafsi na movie binafsi kwamba baadhi watu wamechagua baada ya juu internet Movie Database (IMDb). taarifa yoyote kwamba ni ya kipekee fingerprint kwa maalum mtu-hata kuweka yao ya movie ratings-inaweza kutumika kuzitambua.

Japokuwa data Netflix inaweza re-kutambuliwa katika aidha mashambulizi walengwa au pana, bado inaweza kuonekana kuwa chini ya hatari. Baada ya yote, movie ratings hawaonekani nyeti sana. Wakati kwamba inaweza kuwa kweli kwa ujumla, kwa baadhi ya watu 500,000 katika data, movie ratings inaweza kuwa nyeti kabisa. Kwa kweli, katika kukabiliana na de-anonymization closeted lesbian mwanamke waliojiunga na suti darasa-hatua dhidi ya Netflix. Hapa ni jinsi gani tatizo ilielezwa lawsuit zao (Singel 2009) :

"[M] ovie na rating data ina taarifa ya asili zaidi sana binafsi na nyeti [sic]. mwanachama movie data kuanika maslahi ya mwanachama Netflix binafsi na / au mapambano na masuala mbalimbali yenye binafsi, ikiwa ni pamoja na kujamiiana, ugonjwa wa akili, ahueni kutokana na ulevi, na uonevu kutoka incest, unyanyasaji wa kimwili, unyanyasaji wa majumbani, uzinzi, na ubakaji. "

de-anonymization ya data Netflix Tuzo unaeleza wote kwamba data zote ni uwezekano wa zinazotambulika na kwamba data zote ni uwezekano nyeti. Katika hatua hii, unaweza kufikiri kwamba hii inatumika tu kwa data kwamba kwamba inajiona kuwa juu ya watu. Cha kushangaza, kwamba si kesi. Katika kukabiliana na Uhuru wa Habari ombi Law, New York City Government iliyotolewa kumbukumbu za kila safari ya teksi mjini New York mwaka 2013, ikiwa ni pamoja na Pickup na kuacha mbali mara, maeneo, na kiasi nauli (kukumbuka kutoka Sura ya 2 kwamba Farber (2015) kutumika data hii kwa mtihani nadharia muhimu katika uchumi kazi). Ingawa data hii kuhusu safari teksi inaweza kuonekana benign kwa sababu haina kuonekana kuwa taarifa kuhusu watu, Anthony Tockar alitambua kwamba teksi hii CCD kweli zilizomo kura wa habari uwezekano nyeti juu ya watu. Kwa mfano, yeye inaonekana katika safari yote kuanzia saa Hustler Club-kubwa strip klabu katika New York-kati ya usiku wa manane na 6:00 na kisha kupatikana maeneo yao tone-off. Search huu umebaini-katika kiini-orodha ya anwani ya baadhi ya watu ambao mara kwa mara Hustler Club (Tockar 2014) . Ni vigumu kufikiria kwamba serikali ya mji alikuwa na haya katika akili wakati iliyotolewa data. Kwa kweli, mbinu hii huo unaweza kutumiwa kupata nyumba anwani ya watu ambao kutembelea sehemu yoyote katika-mji zahanati, ujenzi wa serikali, au taasisi za kidini.

Kesi-hizi mbili Netflix Tuzo na New York City teksi data-show kwamba watu kiasi wenye ujuzi alishindwa usahihi makisio hatari ya habari katika data kwamba wao iliyotolewa, na kesi hizi ni kwa maana hakuna kipekee (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Zaidi ya hayo, katika wengi wa kesi hizi, data ni tatizo bado ni uhuru inapatikana online, ikionyesha ugumu wa milele undoing kutolewa data. Kwa pamoja hizi mifano-kama vile utafiti katika sayansi ya kompyuta kuhusu faragha-inaongoza kwa hitimisho muhimu. Watafiti lazima kudhani kwamba data zote ni uwezekano wa zinazotambulika na data zote ni uwezekano nyeti.

Kwa bahati mbaya, hakuna ufumbuzi rahisi na ukweli kwamba data zote ni uwezekano wa zinazotambulika na data zote ni uwezekano nyeti. Hata hivyo, njia moja ya kupunguza hatari habari wakati wewe ni kufanya kazi na data ni kujenga na kufuata mpango ulinzi wa data. Mpango huu utakuwa itapungua nafasi ya kuwa data yako itakuwa leak na yatapungua madhara kama kuvuja kwa namna fulani hutokea. Specifics ya mipango ya ulinzi wa data, kama vile ni aina ya encryption kutumia, kubadilika baada ya muda, lakini Uingereza Data Services helpfully kupanga mambo ya mpango data ulinzi katika makundi 5 wanayoiita 5 safes: miradi salama, watu salama , mazingira salama, data salama, na matokeo salama (Jedwali 6.2) (Desai, Ritchie, and Welpton 2016) . Hakuna hata mmoja safes tano mmoja mmoja kutoa ulinzi kamili. Lakini, pamoja wanaunda kuweka nguvu ya mambo ambayo yanaweza kupunguza hatari ya habari.

Jedwali 6.2: 5 safes ni kanuni kwa ajili ya kubuni na utekelezaji ulinzi wa data mpango (Desai, Ritchie, and Welpton 2016) .
salama hatua
miradi salama mipaka miradi na data kwa wale ambao ni kimaadili
watu salama upatikanaji ni vikwazo kwa watu ambao wanaweza kuaminiwa na data (kwa mfano, watu wamefanyiwa kimaadili mafunzo)
data salama data ni de-kutambuliwa na totala kwa kiasi iwezekanavyo
mazingira salama data ni kuhifadhiwa katika kompyuta na sahihi kimwili (kwa mfano, imefungwa chumba) na programu (kwa mfano, ulinzi wa siri, encrypted) ulinzi
pato salama matokeo ya utafiti ni upya ili kuzuia ajali kuvunja faragha

Mbali na kulinda data yako wakati wewe ni kutumia, hatua moja katika mchakato wa utafiti ambapo hatari ya habari ni hasa salient ni kugawana data na watafiti wengine. kugawana data kati ya wanasayansi ni thamani ya msingi ya jitihada za kisayansi, na vifaa vya kiasi kikubwa maendeleo ya elimu. Hapa ni jinsi gani Uingereza Baraza la huru ilivyoelezwa dhana ya uchangiaji wa data:

"Upatikanaji wa data ni jambo la msingi kama watafiti ni kuzaliana, kuthibitisha na kujenga juu ya matokeo ya kuwa ni taarifa katika maandiko. dhulma lazima kwamba, isipokuwa kama kuna sababu nguvu vinginevyo, data lazima wazi kikamilifu na kufanywa kupatikana kwa umma. Sambamba na kanuni hii, ikiwezekana, data zinazohusiana na yote ya utafiti hadharani unafadhiliwa zinapaswa kuwa sana na kwa uhuru zaidi. " (Molloy 2011)

Hata hivyo, kwa kushirikiana data yako na mtafiti mwingine, unaweza kuwa na kuongeza hatari ya habari kwa washiriki wako. Hivyo, inaweza kuonekana kuwa watafiti ambao wanataka kushiriki yao data-au wanatakiwa kushiriki yao data-wanakabiliwa mvutano msingi. Kwa upande mmoja wana wajibu wa kimaadili kushiriki data zao na wanasayansi wengine, hasa kama utafiti wa awali unafadhiliwa hadharani. Hata hivyo, wakati huo huo, watafiti wana wajibu wa kimaadili ili kupunguza, kama vile iwezekanavyo, maelezo hatari kwa washiriki wao.

Kwa bahati nzuri, mkanganyiko huu si kama kali kama inaonekana. Ni muhimu kufikiria data kugawana pamoja mwendelezo kutoka hakuna kugawana data kutolewa na kusahau, ambapo data ni "anonymized" na posted kwa mtu kupata (Kielelezo 6.6). Wote nafasi hizi uliokithiri na hasara na faida. Hiyo ni, si moja kwa moja jambo la kimaadili na si kushiriki data yako; mfumo huo hupunguza faida nyingi uwezo wa jamii. Kurejea Onjeni, Mahusiano, na Time, mfano kujadiliwa mapema katika sura, hoja dhidi ya data kutolewa kwamba lengo tu juu ya madhara iwezekanavyo na kwamba kupuuza faida inawezekana ni overly upande mmoja; Mimi itabidi kueleza matatizo na upande mmoja, mbinu hii overly kinga kwa undani zaidi katika chini wakati mimi kutoa ushauri kuhusu kufanya maamuzi katika uso wa uhakika (Sehemu ya 6.6.4).

Kielelezo 6.6: Takwimu kutolewa mikakati anaweza kuanguka pamoja mwendelezo. Ambapo unapaswa kuwa pamoja mwendelezo hii inategemea maelezo maalum ya data yako. Katika kesi hiyo, chama cha tatu mapitio inaweza kukusaidia kuamua sahihi urari wa hatari na faida katika kesi yako.

Kielelezo 6.6: Takwimu kutolewa mikakati anaweza kuanguka pamoja mwendelezo. Ambapo unapaswa kuwa pamoja mwendelezo hii inategemea maelezo maalum ya data yako. Katika kesi hiyo, chama cha tatu mapitio inaweza kukusaidia kuamua sahihi urari wa hatari na faida katika kesi yako.

Zaidi ya hayo, katika kati ya hizi kesi mbili uliokithiri ni nini mimi itabidi wito walled bustani mbinu ambapo data ni pamoja na watu ambao kufikia vigezo fulani na ambao wanakubaliana kuwa amefungwa na sheria fulani (kwa mfano, uangalizi kutoka IRB na mipango data ulinzi) . Hii walled bustani mbinu hutoa mengi ya faida ya kutolewa na kusahau na hatari ya chini. Bila shaka, walled bustani mbinu inajenga maswali-ambao wengi wanapaswa kupata, chini ya kile hali, kwa muda gani, ambao wanapaswa kulipa ili kudumisha na polisi walled bustani nk-lakini haya si suala la kupuuzia. Kwa kweli, kuna tayari kufanya kazi bustani walled katika nafasi ya kuwa watafiti wanaweza kutumia haki sasa, kama vile archive data ya Inter-chuo kikuu Consortium ya Siasa na Jamii Utafiti katika Chuo Kikuu cha Michigan.

Hivyo, ambapo lazima data kutoka utafiti wako kuwa juu ya utoaji wa hakuna kugawana, walled bustani, na kutolewa na kusahau? Ni hutegemea maelezo ya data yako; watafiti lazima mizani Heshima kwa watu, wema, uadilifu, naye Heshima kwa Sheria na maslahi ya umma. Wakati wa kutathmini usawa sahihi kwa maamuzi mengine watafiti kutafuta ushauri na idhini ya IRBs, na data kutolewa inaweza kuwa tu sehemu nyingine ya utaratibu huo. Kwa maneno mengine, ingawa baadhi ya watu wanadhani ya data kutolewa kama matumaini ya kimaadili morass, tayari tuna mifumo katika nafasi ya kusaidia watafiti usawa aina ya dilemmas kimaadili.

Njia moja ya mwisho wa kufikiri juu ya kugawana data ni kwa mfano. Kila mwaka magari wanawajibika kwa maelfu ya vifo, lakini hatuwezi kujaribu kupiga marufuku kuendesha gari. Kwa kweli, wito kama kupiga marufuku kuendesha gari itakuwa ajabu kwa sababu kuendesha gari itawezesha mambo mengi ya ajabu. Badala yake, jamii inaweka vikwazo juu ambao unaweza kuendesha gari (kwa mfano, haja ya kuwa na umri fulani, haja ya kupita vipimo fulani) na jinsi gani wanaweza kuendesha (kwa mfano, chini ya kikomo kasi). Society pia ina watu na kazi ya utekelezaji wa sheria hizi (kwa mfano, polisi), na sisi kuwaadhibu watu ambao ni hawakupata kukiuka yao. Hii aina moja ya kufikiri uwiano kwamba jamii inatumika kwa kusimamia kuendesha gari pia inaweza kutumika kwa kubadilishana data. Yaani, badala ya kufanya hoja absolutist kwa au dhidi ya kugawana data, nadhani faida kubwa watakuja kutoka kuhesabia nje ya jinsi tunaweza kushiriki data zaidi kwa usalama zaidi.

Kwa kuhitimisha, hatari ya habari umeongezeka kwa kasi, na ni vigumu sana kutabiri na kupima. Kwa hiyo, ni bora kwa kudhani kuwa data zote ni uwezekano wa zinazotambulika na uwezekano nyeti. Kupunguza hatari ya habari wakati akifanya utafiti, watafiti wanaweza kujenga na kufuata mpango ulinzi wa data. Zaidi ya hayo, hatari ya habari haina kuzuia watafiti kutoka kugawana data na wanasayansi wengine.