4.6.2 Substituir, refinar e Reduzir

Faça a sua experiência mais humana, substituindo experimentos com estudos não experimentais, refinando os tratamentos e reduzir o número de participantes.

O segundo conselho que eu gostaria de oferecer sobre o projeto de experimentos digitais diz respeito a ética. Como o experimento Restivo e van de Rijt na barnstars em mostras Wikipédia, a diminuição dos custos significa que a ética se tornará uma parte cada vez mais importante do projeto de pesquisa. Além dos quadros éticos orientadores seres humanos pesquisa que vou descrever no Capítulo 6, os pesquisadores projetar experimentos digitais também pode desenhar em idéias éticas de uma fonte diferente: os princípios éticos desenvolvidos para orientar experimentos envolvendo animais. Em particular, nos seus Princípios marco livro de Técnica Experimental Humane, Russell and Burch (1959) propôs três princípios que devem nortear a pesquisa animal: Substituir, refinar e reduzir. Eu gostaria de propor que estes três Rs também pode ser usado em uma forma ligeiramente modificada para orientar o planejamento de experimentos humanos. Em particular,

  • Substituir: substituir experiências com métodos menos invasivos, se possível
  • Limitar: Limitar o tratamento para torná-lo tão inofensivo quanto possível
  • Reduzir: Reduzir o número de participantes na sua experiência, tanto quanto possível

A fim de concretizar estes três R e mostrar como elas podem potencialmente levar a melhor e mais humano delineamento experimental, vou descrever um experimento de campo on-line que gerou debate ético. Então eu vou descrever como os três Rs sugerir mudanças concretas e práticas para a concepção do experimento.

Um dos experimentos de campo digital mais eticamente debatidos é "contágio emocional", que foi conduzido por Adam Kramer, Jamie Gillroy, e Jeffrey Hancock (2014) . O experimento foi realizado no Facebook e foi motivado por uma mistura de questões científicas e práticas. Na época, a forma dominante de que os usuários interagem com o Facebook foi o feed de notícias, um conjunto de algoritmos curadoria do Facebook atualizações de status de amigos do Facebook de um usuário. Alguns críticos do Facebook tinha sugerido que, como o Feed de notícias tem na maior parte positivos postos de amigos mostrando o seu mais recente partido-lo poderia causar aos usuários para se sentir triste, porque suas vidas parecem menos emocionante em comparação. Por outro lado, talvez o efeito é exactamente o oposto; talvez vendo o seu amigo ter um bom tempo faria você se sentir feliz? A fim de resolver estes concorrentes de hipóteses e avançar nossa compreensão de como as emoções de uma pessoa são impactados pela de seus amigos emoções-Kramer e seus colegas publicou um experimento. Os pesquisadores colocaram cerca de 700.000 usuários em quatro grupos para uma semana: um grupo de "negatividade reduzida", para os quais as mensagens com palavras negativas (por exemplo, triste) foram bloqueadas aleatoriamente de aparecer no Feed de notícias; um grupo "positividade reduzida" para quem as mensagens com palavras positivas (por exemplo, feliz) foram bloqueadas aleatoriamente; e dois grupos de controlo. No grupo controle para o grupo "negatividade reduzida", mensagens foram bloqueadas aleatoriamente no mesmo ritmo que o grupo "negatividade reduzida", mas sem levar em conta o conteúdo emocional. O grupo controle para o grupo "positividade reduzida" foi construído de forma paralela. O design desta experiência ilustra que o grupo de controlo adequado nem sempre é um sem alterações. Em vez disso, por vezes, o grupo de controlo recebe um tratamento a fim de criar a comparação exacta que requer uma questão de pesquisa. Em todos os casos, as mensagens que foram bloqueadas a partir do feed de notícias ainda estavam disponíveis para os usuários através de outras partes do site do Facebook.

Kramer e seus colegas descobriram que, para os participantes da positividade reduzida condição, o percentual de palavras positivas em suas atualizações de status diminuiu ea porcentagem de palavras negativas aumentou. Por outro lado, para os participantes na condição negatividade reduzida, a percentagem de palavras positivas aumentou e a percentagem de palavras negativas diminuiu (Figura 4.23). No entanto, estes efeitos foram bastante pequena: a diferença de palavras positivas e negativas entre tratamentos e controles foi de cerca de 1 em 1.000 palavras.

Figura 4.23: Evidência de contágio emocional (Kramer, Guillory, e Hancock 2014). Percentagem de palavras positivas e palavras negativas por condição experimental. As barras representam erros padrão estimado.

Figura 4.23: Evidência de contágio emocional (Kramer, Guillory, and Hancock 2014) . Percentagem de palavras positivas e palavras negativas por condição experimental. As barras representam erros padrão estimado.

Eu coloquei uma discussão sobre os aspectos científicos do experimento na seção de leitura adicional no final do capítulo, mas, infelizmente, esta experiência é mais conhecido por gerar um debate ético. Poucos dias depois de este documento foi publicado em Proceedings of the National Academy of Sciences, houve um enorme clamor de ambos os investigadores e da imprensa. Outrage em torno do papel focada em dois pontos principais: 1) os participantes não fornecem qualquer consentimento além do padrão dos termos de serviço do Facebook para um tratamento que algum pensamento pode causar danos aos participantes e 2) o estudo não tinham sido submetidos a terceiros ética avaliação (Grimmelmann 2015) . As questões éticas levantadas neste debate fez com que o jornal a publicar rapidamente uma "expressão editorial de preocupação" raro sobre a ética e processo de revisão ética para a pesquisa (Verma 2014) . Nos anos seguintes, a experiência continua a ser uma fonte de intenso debate e desacordo, e esta discordância pode ter tido o efeito não intencional de condução para as sombras muitas outras experiências que estão sendo executadas por empresas (Meyer 2014) .

Dado que a base sobre Contagion emocional, eu gostaria agora de mostrar que os 3 Rs pode sugerir concreto, melhorias práticas para estudos reais (o que quer que você pode pessoalmente pensar a ética desta experiência particular). O primeiro é R Substituir: pesquisadores tenham por objectivo substituir as experiências com técnicas menos invasivas e arriscadas, se possível. Por exemplo, ao invés de executar um experimento, os pesquisadores poderiam ter explorado um experimento natural. Conforme descrito no Capítulo 2, os experimentos naturais são situações em que algo acontece no mundo que se aproxima da atribuição aleatória de tratamentos (por exemplo, um sorteio para decidir quem vai ser convocado para o exército). A vantagem de um experimento natural é que o pesquisador não tem que entregar tratamentos; o meio ambiente faz isso para você. Em outras palavras, com um experimento natural, os pesquisadores não teria necessidade de manipular experimentalmente das pessoas feeds de notícias.

Na verdade, quase simultaneamente com a experiência contágio emocional, Coviello et al. (2014) estava explorando o que poderia ser chamado de um experimento natural contágio emocional. Sua abordagem, que usa uma técnica chamada de variáveis ​​instrumentais, é um pouco complicado se você nunca viu antes. Assim, a fim de explicar por que era necessário, vamos construir-se a ele. A primeira idéia que alguns pesquisadores pode ter que estudar contágio emocional seria comparar as suas mensagens nos dias em seu Feed de notícias foi muito positivo para as suas mensagens nos dias em seu Feed de notícias foi muito negativa. Esta abordagem seria bom se o objetivo era apenas para prever o conteúdo emocional de seus posts, mas esta abordagem é problemático se o objetivo é estudar o efeito causal do seu Feed de notícias em seus posts. Para ver o problema com este projeto, considere a acção de graças. Em os EUA, as mensagens positivas espiga e mensagens negativas despencar em Ação de Graças. Assim, em Ação de Graças, os pesquisadores poderiam ver que seu Feed de notícias foi muito positiva e que você postou coisas positivas também. Mas, as suas mensagens positivas poderia ter sido causado por ação de graças não pelo conteúdo do seu Feed de notícias. Em vez disso, a fim de estimar o causal pesquisadores efeito preciso de algo que muda o conteúdo do seu Feed de notícias sem alterar diretamente suas emoções. Felizmente, existe algo como isso acontecendo o tempo todo: o tempo.

Coviello e colegas descobriram que um dia chuvoso na cidade de alguém irá, em média, diminuir a proporção de lugares que são positivos em cerca de 1 ponto percentual e aumentar a proporção de mensagens que são negativos em cerca de 1 ponto percentual. Então, Coviello e seus colegas explorado este fato para estudar contágio emocional sem a necessidade de manipular experimentalmente de ninguém News Feed. Em essência, o que eles fizeram é medida como suas mensagens foram impactados pelo clima nas cidades onde seus amigos vivem. Para ver por que isso faz sentido, imaginar que você vive em Nova York e você tem um amigo que vive em Seattle. Agora imagine que um dia começa a chover em Seattle. Esta chuva em Seattle não afetará diretamente o seu humor, mas fará com que seu Feed de notícias a ser menos positivos e mais negativos por causa de mensagens do seu amigo. Assim, a chuva em Seattle manipula aleatoriamente seu Feed de notícias. Virando essa intuição em um procedimento estatístico confiável é complicado (e a abordagem exata usada por Coviello e seus colegas é um não-padrão bit) assim que eu colocar uma discussão mais detalhada na seção de leitura. A coisa mais importante a lembrar sobre Coviello e abordagem do colega é que lhes permitiu estudar contágio emocional, sem a necessidade de executar um experimento que poderia prejudicar os participantes, e pode ser o caso que em muitas outras configurações que você pode substituir as experiências com outros técnicas.

Em segundo lugar nos 3 Rs é Refine: pesquisadores devem procurar para refinar seus tratamentos, a fim de causar o menor dano possível. Por exemplo, em vez de bloquear o conteúdo que foi positivo ou negativo, os investigadores poderiam ter impulsionado o conteúdo que foi positivo ou negativo. Este projeto impulsionar teria mudado o conteúdo emocional dos participantes Notícias Feeds, mas teria abordado uma das preocupações que os críticos expressa: que os experimentos poderiam ter causado os participantes a perder informações importantes no seu Feed de notícias. Com o design utilizado por Kramer e seus colegas, uma mensagem que é importante é a probabilidade de ser bloqueada como um que não é. No entanto, com um design reforço, as mensagens que seriam deslocadas seriam aqueles que são menos importantes.

Finalmente, o terceiro R é Reduzir: pesquisadores devem procurar reduzir o número de participantes na sua experiência, se possível. No passado, essa redução aconteceu naturalmente porque o custo variável de experimentos analógicos foi elevada, o que incentivou a pesquisa para otimizar o seu projeto e análise. No entanto, quando há zero de dados de custos variáveis, os pesquisadores não enfrentam uma restrição custo do tamanho da sua experiência, e isso tem o potencial de levar a desnecessariamente grandes experiências.

Por exemplo, Kramer e seus colegas poderiam ter usado informações de pré-tratamento sobre os seus participantes, tais como pré-tratamento postagem comportamento de fazer a sua análise mais eficiente. Mais especificamente, em vez de comparar a proporção de palavras positivas nas condições de tratamento e de controlo, Kramer e colegas poderia ter comparado a alteração na proporção de palavras positivas entre condições; uma abordagem muitas vezes chamado de diferenças em diferenças e que está intimamente relacionado com a concepção mista que eu descrevi anteriormente no capítulo (Figura 4.5). Ou seja, para cada participante, os pesquisadores poderiam ter criado uma pontuação mudança (comportamento pós-tratamento - um comportamento pré-tratamento) e, em seguida, comparou os escores de mudança de participantes nas condições de tratamento e controle. Esta abordagem de diferenças em diferenças é estatisticamente mais eficiente, o que significa que os investigadores possam conseguir a mesma confiança estatística, utilizando amostras muito menores. Em outras palavras, por não tratar os participantes como "widgets", os pesquisadores muitas vezes podem obter estimativas mais precisas.

Sem ter os dados em bruto, é difícil saber exatamente o quanto mais eficiente a abordagem de diferenças em diferenças teria sido neste caso. Mas, Deng et al. (2013) relatou que em três experiências on-line sobre o motor de busca Bing que eles foram capazes de reduzir a variância das suas estimativas em cerca de 50%, e resultados semelhantes foram relatados por algumas experiências online no Netflix (Xie and Aurisset 2016) . Esta redução de variância de 50% significa que os pesquisadores contágio emocional poderia ter sido capaz de cortar sua amostra ao meio se eles tivessem usado um pouco diferentes métodos de análise. Em outras palavras, com uma pequena alteração na análise, 350.000 pessoas poderia ter sido poupado participação no experimento.

Neste ponto, você pode estar se perguntando por que os pesquisadores devem se importam se 350.000 pessoas estavam em Contagion emocional desnecessariamente. Há duas características particulares de contágio emocional que fazem preocupação com a excessiva dimensão apropriada, e esses recursos são compartilhados por muitos experimentos de campo digitais: 1) há incerteza sobre se a experiência vai causar danos a, pelo menos, alguns participantes e 2) a participação não foi voluntário. Em experiências com estas duas características, parece aconselhável manter as experiências tão pequena quanto possível.

Em conclusão, os três R's-Substituir, refinar e reduzir-fornecem princípios que podem ajudar os investigadores a enriquecer a ética em seus projetos experimentais. Claro, cada uma dessas possíveis alterações ao contágio emocional introduz trade-offs. Por exemplo, a evidência a partir de experimentos naturais nem sempre é tão limpo como evidência a partir de experimentos randomizados e impulsionar poderia ter sido mais logisticamente difícil de implementar do que bloco. Assim, o objetivo de sugerir essas mudanças não era adivinhar as decisões de outros pesquisadores. Em vez disso, era para ilustrar como os três Rs pode ser aplicado em uma situação real.