6.6.2 compreensão e gestão de risco informacional

Esta tradução foi criado por um computador. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

6.6.2 compreensão e gestão de risco informacional

Risco da informação é o risco mais comum em pesquisa social; que aumentou dramaticamente; e é o risco mais difícil de entender.

O segundo desafio ético para a investigação era digital social é risco informacional, o potencial de dano a partir da divulgação de informações (Council 2014) . danos informativos da divulgação de informações pessoais poderia ser económica (por exemplo, perda de um emprego), social (por exemplo, embaraço), psicológico (por exemplo, depressão), ou mesmo penal (por exemplo, a prisão por comportamento ilegal). Infelizmente, a era digital aumenta o risco de informações dramaticamente-há apenas muito mais informações sobre o nosso comportamento. E, o risco informacional tem se mostrado muito difícil de compreender e gerir em comparação com os riscos que eram preocupações na pesquisa social era analógica, como o risco físico. Para ver como a era digital aumenta o risco informativo, considere a transição do papel para registos médicos electrónicos. Ambos os tipos de registros de criar risco, mas os registros eletrônicos criar riscos muito maiores porque em grande escala que pode ser transmitida para uma parte não autorizada ou se fundiu com outros registros. pesquisadores sociais na era digital já ter problemas com o risco informacional, em parte porque eles não entendem completamente como quantificar e controlar a situação. Então, eu estou indo para oferecer uma maneira útil de pensar sobre o risco de informação, e então eu vou dar-lhe alguns conselhos sobre como gerir o risco informacional em sua pesquisa e na liberação de dados para outros pesquisadores.

Uma maneira que os pesquisadores sociais diminuir o risco informacional é "anonimização" dos dados. "Anonymization" é o processo de remoção de identificadores pessoais óbvios, tais como nome, endereço e número de telefone a partir dos dados. No entanto, esta abordagem é muito menos eficaz do que muitas pessoas percebem, e é, de fato, profundamente e fundamentalmente limitada. Por essa razão, sempre que eu descrever "anonimização", eu vou usar aspas para lembrar que este processo cria a aparência de anonimato, mas não é verdade anonimato.

Um exemplo claro do fracasso de "anonimização" vem do final dos anos 1990, em Massachusetts (Sweeney 2002) . A Comissão Insurance Group (GIC) era uma agência do governo responsável pela compra de seguro de saúde para todos os funcionários do Estado. Através deste trabalho, o GIC recolhidos registros de saúde detalhadas sobre milhares de funcionários do Estado. Em um esforço para estimular a pesquisa sobre maneiras de melhorar a saúde, a GIC decidiu lançar esses registros aos investigadores. No entanto, eles não compartilham todos os seus dados; ao contrário, eles "anónimos"-lo removendo informações como nome e endereço. No entanto, eles deixaram outras informações que eles achavam que poderia ser útil para pesquisadores, como informações demográficas (código postal, data de nascimento, etnia e sexo) e informações médicas (dados de visita, diagnóstico, procedimento) (Figura 6.4) (Ohm 2010) . Infelizmente, este "anonimização" não foi suficiente para proteger os dados.

Figura 6.4: "Anonymization" é o processo de remoção, obviamente, a informação de identificação. Por exemplo, ao liberar os registros de seguros médicos de funcionários do Estado Comissão de Seguros Grupo Massachusetts (GIC) removeu o nome e endereço dos arquivos. Eu uso aspas em torno do "anonimização" palavra, porque o processo proporciona o aparecimento de anonimato, mas não o anonimato real.

Para ilustrar as deficiências do "anonimização" GIC, Latanya Sweeney, então um estudante de graduação no MIT-pagou US $ 20 para adquirir os registros de votação da cidade de Cambridge, a cidade natal do governador de Massachusetts William Weld. Estes registros de votação incluídas informações como nome, endereço, CEP, data de nascimento e sexo. O fato de que a ficha médica de dados e o código de campos-zip arquivo de eleitor comum, data de nascimento, e que Sweeney poderia ligá-los significava sexo. Sweeney sabia que o aniversário de Weld foi de 31 julho de 1945, e os registros de votação incluídas apenas seis pessoas em Cambridge com esse aniversário. Além disso, essas seis pessoas, apenas três eram do sexo masculino. E, desses três homens, apenas um compartilhada CEP do Weld. Assim, os dados de voto mostrou que ninguém na dados médicos com a combinação de data de nascimento, sexo e código postal de Weld era William Weld. Em essência, estas três peças de informação fornecida uma impressão digital única para ele nos dados. Usando este fato, Sweeney foi capaz de localizar os registros médicos de solda, e para informá-lo de sua façanha, ela enviou-lhe uma cópia de seus registros (Ohm 2010) .

Figura 6.5: Re-idenification de dados anónimos. Latanya Sweeney combinou os registros de saúde anónimos com registros de votação a fim de encontrar os registros médicos de Governador William Weld (Sweeney, 2002).

Figura 6.5: Re-idenification de dados "anónimos". Latanya Sweeney combinada dos "anônimos" registros de saúde com registros de votação a fim de encontrar os registros médicos de Governador William Weld (Sweeney 2002) .

O trabalho de Sweeney ilustra a estrutura básica de ataques de-anonymization -para adotar um termo da comunidade de segurança do computador. Nesses ataques, dois conjuntos de dados, nenhuma das quais por si só revela informações sensíveis, estão ligados, e através desta ligação, a informação sensível é exposto. Em alguns aspectos, este processo é semelhante ao modo que o bicarbonato de sódio e vinagre, duas substâncias que são por si só segura, podem ser combinados para produzir um resultado mais dura.

Em resposta ao trabalho de Sweeney, e outros trabalhos relacionados, os pesquisadores agora geralmente remover muito mais informações em todos os assim chamados "Informações de Identificação Pessoal" (PII) (Narayanan and Shmatikov 2010) -durante o processo de "anonimização". Além disso, muitos pesquisadores agora perceber que determinados dados, tais como registros médicos, registros financeiros, respostas a perguntas de pesquisas sobre comportamento ilegal-é provavelmente muito sensível para liberar mesmo depois de "anonimização". No entanto, os exemplos mais recentes que vou descrever abaixo indicam que os pesquisadores sociais precisam mudar seu pensamento. Como primeiro passo, é sensato supor que todos os dados é potencialmente identificáveis e todos os dados são potencialmente sensíveis. Em outras palavras, ao invés de pensar que o risco informativo aplica-se a um pequeno subconjunto de projetos, devemos assumir que ele aplica-em algum grau, a todos os projetos.

Ambos os aspectos da presente reorientação são ilustrados pela Netflix Prize. Conforme descrito no Capítulo 5, Netflix lançou 100 milhões de classificações de filmes fornecidos por quase 500.000 membros, e teve um convite aberto onde pessoas de todo o mundo apresentado algoritmos que poderiam melhorar a capacidade da Netflix para recomendar filmes. Antes de liberar os dados, Netflix removeu todas as informações, obviamente, de identificação pessoal, tais como nomes. Netflix também foi um passo extra e introduziu ligeiras perturbações em alguns dos registros (por exemplo, a alteração de algumas classificações a partir de 4 estrelas a 3 estrelas). Netflix logo descobriu, no entanto, que, apesar de seus esforços, os dados não eram de forma anônima.

Apenas duas semanas após os dados foram divulgados Narayanan and Shmatikov (2008) mostrou que era possível aprender sobre as preferências de filmes das pessoas específicas. O truque para seu ataque re-identificação foi semelhante ao Sweeney: fundir duas fontes de informação, um com informações potencialmente confidenciais e nenhuma informação, obviamente, identificar e aquele que contém a identidade das pessoas. Cada uma destas fontes de dados podem ser individualmente segura, mas quando eles são combinados os dados combinados podem criar risco informacional. No caso de os dados Netflix, aqui está como isso poderia acontecer. Imagine que eu escolher para compartilhar meus pensamentos sobre a ação e filmes de comédia com meus colegas de trabalho, mas que eu prefiro não partilhar a minha opinião sobre os filmes religiosos e políticos. Meus colegas de trabalho poderiam usar as informações que eu compartilhei com eles para encontrar meus registros nos dados Netflix; a informação que partilho poderia ser uma impressão digital única, assim como a data de William Weld nascimento, código postal, e sexo. Então, se eles acham minha impressão digital única nos dados, eles poderiam aprender minhas avaliações sobre todos os filmes, incluindo filmes em que eu não escolher para compartilhar. Além deste tipo de ataque direcionado focada em uma única pessoa, Narayanan and Shmatikov (2008) também mostrou que era possível fazer uma ampla -um ataque envolvendo muitas pessoas, fundindo os dados da Netflix com dados de avaliação pessoal e filmes que alguns pessoas optaram por postar na Internet Movie Database (IMDb). Qualquer informação que é impressão digital única para uma pessoa, até mesmo o seu conjunto específico de cinema classificações de-pode ser usado para identificá-los.

Mesmo que os dados da Netflix pode ser re-identificados em qualquer um ataque direcionado ou largo, ele ainda pode parecer ser de baixo risco. Afinal, a classificação dos filmes não parecem muito sensível. Embora isso possa ser verdade em geral, para algumas das 500.000 pessoas no conjunto de dados, a classificação dos filmes pode ser bastante sensível. Na verdade, em resposta à de-anonymization uma mulher lésbica enrustido se juntou a uma ação de classe contra a Netflix. Veja como o problema foi expressa em sua ação (Singel 2009) :

"[M] ovie e classificação de dados contém informações de natureza mais altamente pessoal e sensível [sic]. dados do filme do membro expõe juros e / ou lutas pessoais de um membro do Netflix com várias questões altamente pessoais, incluindo a sexualidade, doença mental, recuperação do alcoolismo, e vitimização de incesto, abuso físico, violência doméstica, adultério e estupro ".

O de-anonimização dos dados Netflix Prize ilustra tanto que todos os dados é potencialmente identificáveis e que todos os dados é potencialmente sensíveis. Neste ponto, você pode pensar que isto só se aplica aos dados que que pretende ser sobre as pessoas. Surpreendentemente, que não é o caso. Em resposta a um pedido de Liberdade de Direito da Informação, o Governo Nova York lançado registros de cada corrida de táxi em Nova York em 2013, incluindo a captura e drop off vezes, locais e quantidades de tarifa (Lembre-se do Capítulo 2 que Farber (2015) usado esses dados para testar as teorias importantes na economia do trabalho). Apesar destes dados sobre as viagens de táxi pode parecer benigna, pois não parecem ser informações sobre as pessoas, Anthony Tockar percebeu que este conjunto de dados de táxi, na verdade, continha muitas informações potencialmente confidenciais sobre as pessoas. Para ilustrar, ele olhou para todas as viagens a partir de The Hustler Club-um grande clube de strip em Nova York-entre meia-noite e seis horas e, em seguida encontraram seus locais de drop-off. Esta pesquisa revelou-em essência, uma lista de endereços de algumas pessoas que frequentam The Hustler Clube (Tockar 2014) . É difícil imaginar que o governo municipal tinha isso em mente quando lançou os dados. Na verdade, essa mesma técnica poderia ser usada para encontrar os endereços residenciais de pessoas que visitam qualquer lugar na cidade-uma clínica médica, um prédio do governo, ou uma instituição religiosa.

Estes dois casos-o Prêmio Netflix eo táxi data-show Nova York que as pessoas relativamente qualificados não conseguiu estimar corretamente o risco informacional nos dados que eles lançaram, e estes casos não são de forma única (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Além disso, em muitos destes casos, os dados problemático ainda está livremente disponível em linha, indicando a dificuldade de cada vez desfazendo autorização de dados. Colectivamente estes exemplos-bem como a investigação em ciência da computação sobre privacidade-conduz a uma conclusão importante. Os investigadores devem assumir que todos os dados são potencialmente identificáveis e todos os dados são potencialmente sensíveis.

Infelizmente, não existe uma solução simples para o facto de que todos os dados são potencialmente identificável e todos os dados são potencialmente sensíveis. No entanto, uma maneira de reduzir o risco de informações enquanto você estiver trabalhando com dados é criar e seguir um plano de protecção de dados. Este plano irá diminui a chance de que os seus dados irá vazar e irá diminuir o dano se ocorre um vazamento de alguma forma. Os detalhes dos planos de protecção de dados, tais como o que forma de criptografia para usar, vai mudar ao longo do tempo, mas os Serviços de Dados do Reino Unido organiza utilmente os elementos de um plano de proteção de dados em 5 categorias que eles chamam de 5 cofres: projetos seguros, as pessoas seguras , configurações de segurança, dados seguros e saídas seguras (Tabela 6.2) (Desai, Ritchie, and Welpton 2016) . Nenhum dos cinco cofres fornecem individualmente proteção perfeita. Mas, juntos eles formam um poderoso conjunto de fatores que podem diminuir o risco informacional.

Tabela 6.2: Os 5 cofres são princípios para a concepção e execução de um plano de proteção de dados (Desai, Ritchie, and Welpton 2016) .
Seguro	Açao
projectos de segurança	limita projectos com os dados para aqueles que estão ético
as pessoas seguras	o acesso é restrito a pessoas que podem ser confiáveis com os dados (formação ética por exemplo, as pessoas têm sofrido)
dados seguros	os dados são identificados de-agregados e na medida do possível
configurações de segurança	dados são armazenados em computadores com físico adequado (por exemplo, sala trancada) e software (por exemplo, proteção por senha, criptografada) proteções
saída segura	produção de pesquisa é revisto para evitar que acidentalmente violações de privacidade

Além de proteger seus dados enquanto você estiver usando ele, um passo no processo de pesquisa onde o risco informacional é particularmente relevante é o compartilhamento de dados com outros pesquisadores. A partilha de dados entre os cientistas é um valor fundamental do esforço científico, e ele bastante instalações o avanço do conhecimento. Veja como a Câmara dos Comuns britânica descreveu a importância da partilha de dados:

"O acesso aos dados é fundamental para que os investigadores estão a reproduzir, verificar e construir sobre os resultados que são relatados na literatura. A presunção deve ser que, a menos que haja uma forte razão em contrário, os dados devem ser amplamente divulgados e disponibilizados ao público. Em conformidade com este princípio, sempre que possível, os dados associados a todas as pesquisas financiadas publicamente devem ser amplamente e livremente disponível. " (Molloy 2011)

No entanto, através da partilha de seus dados com outro pesquisador, você pode estar aumentando o risco informativa para os seus participantes. Assim, pode parecer que os pesquisadores que desejam compartilhar seus dados, ou são obrigados a partilhar os seus dados estão a enfrentar uma tensão fundamental. Por um lado, eles têm uma obrigação ética de partilhar os seus dados com outros cientistas, especialmente se a pesquisa original é financiada publicamente. No entanto, ao mesmo tempo, os pesquisadores têm uma obrigação ética para minimizar, tanto quanto possível, o risco de informações aos seus participantes.

Felizmente, esse dilema não é tão grave quanto parece. É importante pensar em compartilhamento de dados ao longo de um continuum de não compartilhamento de dados para liberar e esquecer, onde os dados são "anónimos" e publicado para qualquer um acessar (Figura 6.6). Ambas estas posições extremas tem riscos e benefícios. Ou seja, ele não é automaticamente a coisa mais ética de não compartilhar seus dados; uma tal abordagem elimina muitos potenciais benefícios para a sociedade. Voltando ao gosto, Ties, e tempo, um exemplo discutido anteriormente no capítulo, argumentos contra a liberação dos dados que se concentram apenas em possíveis danos e que ignoram possíveis benefícios são excessivamente unilateral; Vou descrever os problemas com esta abordagem unilateral, excessivamente protetora em mais detalhes em baixo quando eu oferecer conselhos sobre a tomada de decisões em face da incerteza (Seção 6.6.4).

Figura 6.6: estratégias de liberação dos dados pode cair ao longo de um continuum. Onde você deve ser ao longo deste continuum depende dos detalhes específicos de seus dados. Neste caso, avaliação de terceiros pode ajudar a decidir o equilíbrio adequado de risco e benefício no seu caso.

Além disso, entre estes dois casos extremos é o que eu vou chamada uma abordagem jardim murado onde os dados são compartilhados com pessoas que atendam a determinados critérios e que concordam em se comprometer com determinadas regras (por exemplo, a supervisão de um IRB e um planos de protecção de dados) . Esta abordagem jardim murado fornece muitos dos benefícios da liberação e esquecer com menos risco. É claro, uma abordagem jardim murado cria muitas perguntas-que devem ter acesso, em que condições, por quanto tempo, quem deve pagar para manter e policiar o jardim murado etc., mas estes não são insuperáveis. Na verdade, há já estão trabalhando jardins murados no lugar que pesquisadores podem usar agora, como o arquivo de dados do Consórcio Interuniversitário de Pesquisa Política e Social da Universidade de Michigan.

Então, onde devem os dados de seu estudo estar no continuum de nenhuma partilha, jardim murado, e solte e esquecer? Ele depende dos detalhes de seus dados; os investigadores devem equilibrar Respeito pelas Pessoas, Beneficência, Justiça e Respeito do Direito e de interesse público. Ao avaliar o equilíbrio adequado para outras decisões pesquisadores procurar o conselho e aprovação do CRI, e liberação de dados pode ser apenas uma outra parte desse processo. Em outras palavras, embora algumas pessoas pensam em liberação de dados como um pântano ética sem esperança, nós já temos sistemas para ajudar os pesquisadores a equilibrar estes tipos de dilemas éticos.

Uma última maneira de pensar sobre a partilha de dados é por analogia. A cada ano os carros são responsáveis por milhares de mortes, mas nós não tente proibição de condução. Na verdade, tal apelo à proibição de condução seria um absurdo, porque a condução permite muitas coisas maravilhosas. Em vez disso, a sociedade coloca restrições sobre quem pode dirigir (por exemplo, precisa ser de uma certa idade, precisa de ter passado alguns testes) e como eles podem dirigir (por exemplo, sob o limite de velocidade). A sociedade também tem as pessoas encarregadas de fazer cumprir essas regras (por exemplo, polícia), e punir as pessoas que são apanhadas violá-las. Este mesmo tipo de raciocínio equilibrado que a sociedade se aplica a regulação de condução também pode ser aplicada a partilha de dados. Ou seja, ao invés de fazer argumentos absolutistas a favor ou contra a partilha de dados, acho que os maiores benefícios virão de descobrir como podemos partilhar mais dados com mais segurança.

Para concluir, o risco informacional aumentou dramaticamente, e é muito difícil de prever e quantificar. Portanto, é melhor assumir que todos os dados são potencialmente identificáveis e potencialmente sensíveis. Para diminuir o risco de informação ao fazer a pesquisa, os pesquisadores podem criar e seguir um plano de protecção de dados. Além disso, o risco informacional não impede os pesquisadores de compartilhar dados com outros cientistas.