4.4.1 Validade

Validade refere-se a quanto os resultados de um experimento apoiar uma conclusão mais geral.

Nenhuma experiência é perfeita, e os investigadores desenvolveram uma extensa vocabulário para descrever possíveis problemas. Validade refere-se à medida em que os resultados de uma experiência em particular apoiar uma conclusão mais geral. Os cientistas sociais descobriram que é útil para dividir validade em quatro tipos principais: validade conclusão estatística, validade interna, validade do construto e validade externa (Shadish, Cook, and Campbell 2001, Ch 2) . Dominar esses conceitos irá fornecer-lhe uma lista de verificação mental para criticar e melhorar o projeto e análise de um experimento, e vai ajudá-lo a se comunicar com outros pesquisadores.

Validade conclusão estatística gira em torno de saber se a análise estatística do experimento foi feito corretamente. No contexto de Schultz et al. (2007) tal pergunta pode centrar-se computados os valores de p corretamente. A análise estatística está além do escopo deste livro, mas posso dizer que os princípios estatísticos necessários para projetar e analisar experiências não mudaram na era digital. No entanto, o ambiente de dados diferentes em experimentos digitais cria novas oportunidades de estatísticas (por exemplo, usando métodos de aprendizado de máquina para estimar a heterogeneidade dos efeitos do tratamento (Imai and Ratkovic 2013) ) e os novos desafios computacionais (por exemplo, o bloqueio em experimentos maciças (Higgins, Sävje, and Sekhon 2016) ).

A validade interna gira em torno de saber se os procedimentos experimentais foram realizados corretamente. Voltando para a experiência de Schultz et al. (2007) , dúvidas sobre a validade interna poderia giram em torno da randomização, a entrega do tratamento, e mensuração de resultados. Por exemplo, você pode estar preocupado que os assistentes de pesquisa não ler os medidores elétricos de forma confiável. Na verdade, Schultz e seus colegas estavam preocupados com este problema e eles tiveram uma amostra de metros ler duas vezes; Felizmente, os resultados foram essencialmente idênticos. Em geral, Schultz e experiência dos colegas parece ter alta validade interna, mas isso nem sempre é o caso; campo complexo e experiências on-line muitas vezes correr em problemas, na verdade, entregando o tratamento certo para as pessoas certas e medindo os resultados para todos. Felizmente, a era digital pode ajudar a reduzir preocupações sobre a validade interna, porque torna mais fácil garantir que o tratamento é entregue como projetado para aqueles que são supostamente para recebê-lo e medir os resultados para todos os participantes.

Construir centros de validade em todo o jogo entre os dados e as construções teóricas. Como discutido no Capítulo 2, as construções são conceitos abstractos que os cientistas sociais raciocinar sobre. Infelizmente, esses conceitos abstratos nem sempre têm definições e medições claras. Voltando à Schultz et al. (2007) , a alegação de que cautelar normas sociais podem reduzir o uso de eletricidade requer pesquisadores para projetar um tratamento que manipular "as normas sociais inibitórias" (por exemplo, um emoticon) e medir "o uso de eletricidade". Em experimentos analógicos, muitos pesquisadores projetaram seus próprios tratamentos e mediram seus próprios resultados. Esta abordagem assegura que, tanto quanto possível, as experiências combinar as construções resumo a ser estudado. Em experiências digitais onde os pesquisadores parcerias com empresas ou governos para fornecer tratamentos e usar sempre-em sistemas de dados para medir os resultados, o jogo entre o experimento e as construções teóricas pode ser menos apertada. Assim, espero que a validade da construção tende a ser uma preocupação maior em experiências digitais que experimentos analógicos.

Finalmente, validade externa gira em torno de saber se os resultados desta experiência seria generalizar para outras situações. Voltando à Schultz et al. (2007) , pode-se perguntar, isso vai mesmo proporcionar ideia às pessoas informações sobre seu consumo de energia em relação aos seus pares e um sinal de normas cautelares (por exemplo, um emoticon) o uso de energia -Reduzir se foi feito de uma maneira diferente em uma configuração diferente? Por mais bem concebido e experiências bem-run, as preocupações sobre a validade externa são os mais difíceis de resolver. No passado, esses debates sobre a validade externa eram frequentemente apenas um grupo de pessoas sentadas em uma sala tentando imaginar o que teria acontecido se os procedimentos foram realizados de uma forma diferente, ou em um lugar diferente, ou com pessoas diferentes. Felizmente, a era digital permite aos pesquisadores para ir além essas especulações livre de dados e avaliar a validade externa empiricamente.

Porque os resultados de Schultz et al. (2007) foram tão excitante, uma empresa chamada Opower parceria com utilitários nos Estados Unidos para implantar o tratamento mais amplamente. Com base no desenho de Schultz et al. (2007) , Opower criado personalizado Inicio Relatos de energia que tiveram dois módulos principais, um mostrando o uso da eletricidade relativa do agregado familiar para os seus vizinhos com um emoticon e um fornecendo dicas para diminuir o uso de energia (Figura 4.6). Então, em parceria com pesquisadores, Opower correu experimentos aleatórios controlados para avaliar o impacto das Inicio Relatos de energia. Mesmo que os tratamentos nestes experimentos foram tipicamente entregues fisicamente geralmente através de idade caracol moda correio o resultado foi medido utilizando dispositivos digitais no mundo físico (por exemplo, medidores de energia). Em vez de recolher manualmente esta informação com assistentes de pesquisa que visitam cada casa, os experimentos Opower foram todas feitas em parceria com empresas de energia que permitam aos investigadores aceder as leituras de energia. Assim, estes experimentos de campo parcialmente digitais foram executados em grande escala a baixo custo variável.

Figura 4.6: The Home Relatórios de energia em Allcott (2011) teve um módulo de comparação social e um módulo Etapas da ação.

Figura 4.6: The Home Relatórios de energia em Allcott (2011) teve um módulo de comparação social e um módulo Etapas da ação.

Em um primeiro conjunto de experimentos envolvendo 600.000 domicílios atendidos por 10 empresas de serviços públicos em todo o Estados Unidos, Allcott (2011) encontrou o Relatório de Energia Início reduzido consumo de electricidade de 1,7%. Em outras palavras, os resultados do estudo muito maior, mais geograficamente diversas foram qualitativamente semelhantes aos resultados de Schultz et al. (2007) . Mas, o tamanho do efeito era menor: em Schultz et al. (2007) as famílias na condição normas descritiva e injective (aquele com o emoticon) reduziu seu uso de eletricidade em 5%. A razão exata para esta diferença é desconhecida, mas Allcott (2011) especulou que receber um emoticon manuscrito como parte de um estudo patrocinado por uma universidade pode ter um efeito maior sobre o comportamento do que receber um emoticon impresso como parte de um relatório produzido em massa a partir de um companhia de energia.

Além disso, em pesquisas posteriores, Allcott (2015) relatou em um adicional de 101 experimentos envolvendo um adicional de 8 milhões de lares. Nestes próximos 101 experimentos do Relatório de Energia Início continuou a levar as pessoas a reduzir seu consumo de eletricidade, mas os efeitos foram ainda menor. A razão precisa para esta diminuição não é conhecida, mas Allcott (2015) especula-se que a eficácia do relatório parecia estar a diminuir com o tempo, porque está a ser aplicado para diferentes tipos de participantes. Mais especificamente, os serviços públicos em áreas mais ambientalistas eram mais prováveis ​​adotar o programa anterior e os seus clientes eram mais sensíveis ao tratamento. Como utilitários com menos clientes ambientais adoptou o programa, sua eficácia apareceu a declinar. Assim, como randomização em experimentos garante que o grupo de tratamento e controle são semelhantes, randomização em sites de pesquisa garante que as estimativas podem ser generalizados a partir de um grupo de participantes a uma população mais geral (acho que volta ao Capítulo 3, sobre amostragem). Se os sites de pesquisa não são amostrados aleatoriamente, em seguida, generalização, mesmo a partir de um perfeitamente desenhado e conduzido experimento pode ser problemático.

Juntos, esses 111 experimentos-10 em Allcott (2011) e 101 em Allcott (2015) -involved cerca de 8,5 milhões de famílias de todo o Estados Unidos. Eles mostram consistentemente que os relatórios Home Energy reduzir o consumo médio de eletricidade, um resultado que apoia as conclusões iniciais de Schultz e colegas de 300 casas na Califórnia. Além apenas replicar nestes resultados originais, as experiências de acompanhamento mostram também que a magnitude do efeito varia com a localização. Este conjunto de experimentos também ilustra mais dois pontos gerais sobre experimentos de campo parcialmente digitais. Primeiro, os pesquisadores serão capazes de empiricamente preocupações sobre a validade externa quando o custo de funcionamento de experiências é baixa, e isso pode ocorrer se o resultado já está sendo medido por um sistema de always-on de dados. Por isso, ele sugere que a investigação deveria estar no look-out para outros comportamentos interessantes e importantes que já estão sendo gravadas, e depois projetar experimentos no topo desta infra-estrutura de medição existente. Em segundo lugar, este conjunto de experiências nos lembra que experimentos de campo digitais não são apenas on-line; cada vez que eu esperar que eles vão estar em toda parte, com muitos resultados medidos pelos sensores no ambiente construído.

Os quatro tipos de validade conclusão validade estatística, validade interna, validade do construto, validade-fornecem externa uma lista de verificação mental para ajudar os pesquisadores a avaliar se os resultados de um experimento em particular apoiar uma conclusão mais geral. Em comparação com experimentos era analógica, em experimentos era digital deve ser mais fácil para resolver validade externa empiricamente e deve ser mais fácil para garantir a validade interna. Por outro lado, as questões de validade do construto provavelmente será mais desafiador em experimentos era digital (apesar de que não era o caso com os experimentos Opower).