6.6.2 compreensão e gestão de risco informacional

O risco informacional é o risco mais comum na pesquisa social; aumentou dramaticamente; e é o risco mais difícil de entender.

O segundo desafio ético para a pesquisa sobre a era digital é o risco informacional , o potencial de dano causado pela divulgação de informações (National Research Council 2014) . Danos informacionais da divulgação de informações pessoais podem ser econômicos (por exemplo, perder um emprego), sociais (por exemplo, constrangimento), psicológicos (por exemplo, depressão) ou mesmo criminosos (por exemplo, prisão por comportamento ilegal). Infelizmente, a era digital aumenta drasticamente o risco informacional - há muito mais informações sobre o nosso comportamento. E o risco informacional provou ser muito difícil de entender e gerenciar comparado com os riscos que eram preocupações na pesquisa social da era analógica, como o risco físico.

Uma maneira que os pesquisadores sociais diminuir o risco informacional é "anonimização" dos dados. "Anonymization" é o processo de remoção de identificadores pessoais óbvios, tais como nome, endereço e número de telefone a partir dos dados. No entanto, esta abordagem é muito menos eficaz do que muitas pessoas percebem, e é, de fato, profundamente e fundamentalmente limitada. Por essa razão, sempre que eu descrever "anonimização", eu vou usar aspas para lembrar que este processo cria a aparência de anonimato, mas não é verdade anonimato.

Um exemplo vívido do fracasso da “anonimização” vem do final dos anos 90 em Massachusetts (Sweeney 2002) . A Group Insurance Commission (GIC) era uma agência governamental responsável pela compra de seguro de saúde para todos os funcionários do estado. Através deste trabalho, o GIC coletou registros detalhados de saúde sobre milhares de funcionários do estado. Em um esforço para estimular a pesquisa, o GIC decidiu liberar esses registros para os pesquisadores. No entanto, eles não compartilharam todos os seus dados; em vez disso, eles “anonimizaram” esses dados removendo informações como nomes e endereços. No entanto, eles deixaram outras informações que consideraram úteis para os pesquisadores, como informações demográficas (código postal, data de nascimento, etnia e sexo) e informações médicas (dados de visita, diagnóstico, procedimento) (figura 6.4) (Ohm 2010) . Infelizmente, essa “anonimização” não foi suficiente para proteger os dados.

Figura 6.4: Anonimização é o processo de remoção de informações de identificação óbvia. Por exemplo, ao liberar os registros de seguro médico de funcionários do estado, a Comissão de Seguros do Grupo de Massachusetts (GIC) removeu nomes e endereços dos arquivos. Eu uso as aspas em torno da palavra anonimização porque o processo fornece a aparência de anonimato, mas não o anonimato real.

Figura 6.4: “Anonimização” é o processo de remover informações de identificação óbvia. Por exemplo, ao liberar os registros de seguro médico de funcionários do estado, a Comissão de Seguros do Grupo de Massachusetts (GIC) removeu nomes e endereços dos arquivos. Eu uso as aspas em torno da palavra “anonimização” porque o processo fornece a aparência de anonimato, mas não o anonimato real.

Para ilustrar as deficiências da “anonimização” da GIC, Latanya Sweeney - então estudante de pós-graduação no MIT - pagou US $ 20 para adquirir os registros de votação da cidade de Cambridge, a cidade natal do governador de Massachusetts, William Weld. Esses registros de votação incluíam informações como nome, endereço, código postal, data de nascimento e sexo. O fato de o arquivo de dados médicos e o arquivo do eleitor compartilharem campos - código postal, data de nascimento e sexo - significava que Sweeney poderia vinculá-los. Sweeney sabia que o aniversário de Weld era 31 de julho de 1945, e os registros de votação incluíam apenas seis pessoas em Cambridge naquele aniversário. Além disso, dessas seis pessoas, apenas três eram do sexo masculino. E, desses três homens, apenas um compartilhou o código postal de Weld. Assim, os dados de votação mostraram que qualquer pessoa nos dados médicos com a combinação da data de nascimento, sexo e código postal de Weld era William Weld. Em essência, essas três informações forneceram uma impressão digital única para ele nos dados. Usando esse fato, Sweeney conseguiu localizar os registros médicos de Weld e, para informá-lo de seu feito, enviou-lhe uma cópia de seus registros (Ohm 2010) .

Figura 6.5: Re-identificação de dados anônimos. Latanya Sweeney combinou os registros de saúde anônimos com os registros de votação, a fim de encontrar os registros médicos do governador William Weld Adaptado de Sweeney (2002), figura 1.

Figura 6.5: Re-identificação de dados “anônimos”. Latanya Sweeney combinou os registros de saúde “anônimos” com registros de votação, a fim de encontrar os registros médicos do governador William Weld Adaptado de Sweeney (2002) , figura 1.

O trabalho de Sweeney ilustra a estrutura básica dos ataques de reidentificação - para adotar um termo da comunidade de segurança de computadores. Nesses ataques, dois conjuntos de dados, nenhum dos quais por si só revela informações confidenciais, estão vinculados e, por meio dessa conexão, informações confidenciais são expostas.

Em resposta ao trabalho de Sweeney e outros trabalhos relacionados, os pesquisadores geralmente removem muito mais informações - todas as chamadas “informações de identificação pessoal” (PII) (Narayanan and Shmatikov 2010) durante o processo de “anonimização”. Além disso, muitos pesquisadores agora percebemos que certos dados - como registros médicos, registros financeiros, respostas a perguntas sobre comportamentos ilegais - provavelmente são muito sensíveis para serem divulgados mesmo depois da “anonimização”. No entanto, os exemplos que estou prestes a dar sugerem que os pesquisadores sociais precisam para mudar seu pensamento. Como primeiro passo, é sensato supor que todos os dados são potencialmente identificáveis ​​e todos os dados são potencialmente sensíveis. Em outras palavras, em vez de pensar que o risco informacional se aplica a um pequeno subconjunto de projetos, devemos supor que isso se aplique - até certo ponto - a todos os projetos.

Ambos os aspectos dessa reorientação são ilustrados pelo Prêmio Netflix. Conforme descrito no capítulo 5, a Netflix lançou 100 milhões de classificações de filmes fornecidas por quase 500.000 membros e teve uma chamada aberta onde pessoas de todo o mundo enviaram algoritmos que poderiam melhorar a capacidade da Netflix de recomendar filmes. Antes de liberar os dados, a Netflix removeu qualquer informação óbvia de identificação pessoal, como nomes. Eles também deram um passo extra e introduziram pequenas perturbações em alguns dos registros (por exemplo, mudando algumas classificações de 4 estrelas para 3 estrelas). Eles logo descobriram, no entanto, que apesar de seus esforços, os dados ainda não eram anônimos.

Apenas duas semanas após os dados serem divulgados, Arvind Narayanan e Vitaly Shmatikov (2008) mostraram que era possível aprender sobre preferências de filmes de pessoas específicas. O truque para o seu ataque de reidentificação foi semelhante ao de Sweeney: juntar duas fontes de informação, uma com informação potencialmente sensível e nenhuma informação de identificação óbvia e uma que contenha as identidades das pessoas. Cada uma dessas origens de dados pode ser individualmente segura, mas quando são combinadas, o conjunto de dados mesclado pode criar um risco informacional. No caso dos dados da Netflix, veja como isso pode acontecer. Imagine que escolho compartilhar meus pensamentos sobre filmes de ação e comédia com meus colegas de trabalho, mas prefiro não compartilhar minha opinião sobre filmes religiosos e políticos. Meus colegas de trabalho poderiam usar as informações que eu compartilhei com eles para encontrar meus registros nos dados da Netflix; a informação que eu compartilho poderia ser uma impressão digital única, assim como a data de nascimento, código postal e sexo de William Weld. Então, se eles encontrarem minha impressão digital exclusiva nos dados, poderão saber minhas avaliações sobre todos os filmes, incluindo os filmes que eu escolho não compartilhar. Além desse tipo de ataque focado em uma única pessoa, Narayanan e Shmatikov também mostraram que era possível fazer um ataque amplo - envolvendo muitas pessoas - mesclando os dados do Netflix com dados pessoais e de classificação de filmes que algumas pessoas escolheram. postar na Internet Movie Database (IMDb). Muito simplesmente, qualquer informação que seja uma impressão digital única para uma pessoa específica - até mesmo o conjunto de classificações de filmes - pode ser usada para identificá-las.

Mesmo que os dados do Netflix possam ser re-identificados em um ataque direcionado ou amplo, ele ainda pode parecer de baixo risco. Afinal, as classificações de filmes não parecem muito sensíveis. Embora isso possa ser verdade em geral, para algumas das 500.000 pessoas no conjunto de dados, as classificações de filmes podem ser bastante sensíveis. De fato, em resposta à re-identificação, uma mulher lésbica que estava no armário se juntou a uma ação coletiva contra a Netflix. Veja como o problema foi expresso em sua ação judicial (Singel 2009) :

“[M] ovie e rating data contém informação de uma… natureza altamente pessoal e sensível. Os dados do filme dos membros expõem o interesse pessoal de um membro do Netflix e / ou lida com vários assuntos altamente pessoais, incluindo sexualidade, doença mental, recuperação do alcoolismo e vitimização por incesto, abuso físico, violência doméstica, adultério e estupro ”.

A re-identificação dos dados do Prêmio Netflix mostra que todos os dados são potencialmente identificáveis ​​e que todos os dados são potencialmente sensíveis. Nesse ponto, você pode pensar que isso se aplica apenas a dados que pretendem ser sobre pessoas. Surpreendentemente, esse não é o caso. Em resposta a uma solicitação da Lei de Liberdade de Informação, o governo da cidade de Nova York divulgou registros de todas as viagens de táxi em Nova York em 2013, incluindo os horários de coleta e entrega, locais e tarifas (recorde do capítulo 2 que Farber (2015) utilizou dados semelhantes para testar teorias importantes na economia do trabalho). Esses dados sobre viagens de táxi podem parecer benignos porque não parecem fornecer informações sobre pessoas, mas Anthony Tockar percebeu que esse conjunto de dados de táxi realmente continha muitas informações potencialmente sensíveis sobre as pessoas. Para ilustrar, ele olhou para todas as viagens começando no Hustler Club - um grande clube de striptease em Nova York - entre a meia-noite e as 6 da manhã e depois encontrou seus locais de entrega. Esta pesquisa revelou - em essência - uma lista de endereços de algumas pessoas que frequentavam o Hustler Club (Tockar 2014) . É difícil imaginar que o governo da cidade tenha isso em mente quando divulgou os dados. De fato, essa mesma técnica poderia ser usada para encontrar os endereços das pessoas que visitam qualquer lugar da cidade - uma clínica médica, um prédio do governo ou uma instituição religiosa.

Esses dois casos do Netflix e os dados de táxi da cidade de Nova York mostram que pessoas relativamente qualificadas podem não estimar corretamente o risco informacional nos dados divulgados - e esses casos não são exclusivos (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Além disso, em muitos desses casos, os dados problemáticos ainda estão disponíveis gratuitamente on-line, indicando a dificuldade de desfazer um lançamento de dados. Coletivamente, esses exemplos - assim como a pesquisa em ciência da computação sobre privacidade - levam a uma conclusão importante. Os pesquisadores devem assumir que todos os dados são potencialmente identificáveis ​​e todos os dados são potencialmente sensíveis.

Infelizmente, não há uma solução simples para os fatos de que todos os dados são potencialmente identificáveis ​​e que todos os dados são potencialmente sensíveis. No entanto, uma maneira de reduzir o risco informacional enquanto você trabalha com dados é criar e seguir um plano de proteção de dados . Este plano diminuirá a chance de que seus dados vazem e diminuirá o dano se ocorrer algum vazamento. As especificidades dos planos de proteção de dados, como a forma de criptografia a ser usada, mudarão com o tempo, mas o Data Services do Reino Unido organiza os elementos de um plano de proteção de dados em cinco categorias: cinco projetos: projetos seguros, pessoas seguras. , configurações seguras, dados seguros e saídas seguras (tabela 6.2) (Desai, Ritchie, and Welpton 2016) . Nenhum dos cinco cofres fornece proteção perfeita. Mas juntos eles formam um poderoso conjunto de fatores que podem diminuir o risco informacional.

Tabela 6.2: Os “Cinco Cofres” são Princípios para Projetar e Executar um Plano de Proteção de Dados (Desai, Ritchie, and Welpton 2016)
Seguro Açao
Projetos seguros Limita projetos com dados àqueles que são éticos
Pessoas seguras O acesso é restrito a pessoas que podem confiar nos dados (por exemplo, pessoas que passaram por treinamento ético)
Dados seguros Os dados são identificados e agregados na medida do possível
Configurações seguras Os dados são armazenados em computadores com proteção física apropriada (por exemplo, sala trancada) e software (por exemplo, proteção por senha, criptografada)
Saída segura A produção de pesquisa é revisada para evitar violações acidentais de privacidade

Além de proteger seus dados enquanto você os utiliza, um passo no processo de pesquisa em que o risco informacional é particularmente importante é o compartilhamento de dados com outros pesquisadores. O compartilhamento de dados entre cientistas é um valor central do esforço científico e facilita muito o avanço do conhecimento. Veja como a Câmara dos Comuns do Reino Unido descreveu a importância do compartilhamento de dados (Molloy 2011) :

“O acesso aos dados é fundamental para que os pesquisadores possam reproduzir, verificar e construir resultados relatados na literatura. A presunção deve ser que, a menos que haja uma forte razão em contrário, os dados devem ser totalmente divulgados e divulgados publicamente ”.

No entanto, ao compartilhar seus dados com outro pesquisador, você pode estar aumentando o risco informacional para seus participantes. Assim, pode parecer que o compartilhamento de dados cria uma tensão fundamental entre a obrigação de compartilhar dados com outros cientistas e a obrigação de minimizar o risco informacional para os participantes. Felizmente, esse dilema não é tão grave quanto parece. Em vez disso, é melhor pensar no compartilhamento de dados ao longo de um continuum, com cada ponto desse continuum fornecendo um mix diferente de benefícios para a sociedade e risco para os participantes (figura 6.6).

Em um extremo, você pode compartilhar seus dados sem ninguém, o que minimiza o risco para os participantes, mas também minimiza os ganhos para a sociedade. No outro extremo, você pode liberar e esquecer , onde os dados são "anonimizados" e postados para todos. Em relação a não liberar dados, liberar e esquecer oferece benefícios mais altos para a sociedade e maior risco para os participantes. Entre esses dois casos extremos, há uma série de híbridos, incluindo o que chamarei de abordagem de jardim murado . Sob essa abordagem, os dados são compartilhados com pessoas que atendem a determinados critérios e que concordam em se comprometer com certas regras (por exemplo, supervisão de um IRB e um plano de proteção de dados). A abordagem de jardim murado fornece muitos dos benefícios de liberar e esquecer com menos risco. É claro que tal abordagem cria muitas questões - quem deve ter acesso, em que condições e por quanto tempo quem deve pagar para manter e policiar o jardim murado etc. -, mas estas não são intransponíveis. Na verdade, já existem jardins murados que os pesquisadores podem usar agora, como o arquivo de dados do Consórcio Interuniversitário de Pesquisa Política e Social da Universidade de Michigan.

Figura 6.6: Estratégias de liberação de dados podem cair em um continuum. Onde você deve estar neste continuum depende dos detalhes específicos de seus dados, e a análise de terceiros pode ajudá-lo a decidir o equilíbrio apropriado de risco e benefício no seu caso. A forma exata dessa curva depende das especificidades dos dados e dos objetivos da pesquisa (Goroff 2015).

Figura 6.6: Estratégias de liberação de dados podem cair em um continuum. Onde você deve estar neste continuum depende dos detalhes específicos de seus dados, e a análise de terceiros pode ajudá-lo a decidir o equilíbrio apropriado de risco e benefício no seu caso. A forma exata dessa curva depende das especificidades dos dados e dos objetivos da pesquisa (Goroff 2015) .

Então, onde os dados de seu estudo deveriam estar no contínuo de não compartilhar, jardim murado, e liberar e esquecer? Isso depende dos detalhes de seus dados: os pesquisadores devem equilibrar o Respeito pelas Pessoas, a Beneficência, a Justiça e o Respeito pela Lei e pelo Interesse Público. Visto dessa perspectiva, o compartilhamento de dados não é um enigma ético distinto; é apenas um dos muitos aspectos da pesquisa em que os pesquisadores precisam encontrar um equilíbrio ético adequado.

Alguns críticos geralmente se opõem ao compartilhamento de dados porque, na minha opinião, eles estão focados em seus riscos - que são, sem dúvida, reais - e estão ignorando seus benefícios. Então, para incentivar o foco nos riscos e benefícios, gostaria de oferecer uma analogia. Todos os anos, os carros são responsáveis ​​por milhares de mortes, mas não tentamos proibir a condução. Na verdade, uma chamada para proibir a condução seria absurda, porque a condução permite muitas coisas maravilhosas. Em vez disso, a sociedade coloca restrições sobre quem pode dirigir (por exemplo, a necessidade de ter uma certa idade e ter passado em certos testes) e como elas podem dirigir (por exemplo, abaixo do limite de velocidade). A sociedade também tem pessoas encarregadas de fazer cumprir essas regras (por exemplo, a polícia) e punimos as pessoas que são flagradas violando-as. Esse mesmo tipo de pensamento equilibrado que a sociedade aplica à regulação da direção também pode ser aplicado ao compartilhamento de dados. Ou seja, em vez de fazer argumentos absolutistas a favor ou contra o compartilhamento de dados, acredito que faremos o maior progresso concentrando-nos em como podemos diminuir os riscos e aumentar os benefícios do compartilhamento de dados.

Para concluir, o risco informacional aumentou dramaticamente, e é muito difícil prever e quantificar. Portanto, é melhor assumir que todos os dados são potencialmente identificáveis ​​e potencialmente sensíveis. Para diminuir o risco informacional durante a pesquisa, os pesquisadores podem criar e seguir um plano de proteção de dados. Além disso, o risco informacional não impede que os pesquisadores compartilhem dados com outros cientistas.