4.4.1 Validade

Validade refere-se a quanto os resultados de um experimento apoiar uma conclusão mais geral.

Nenhum experimento é perfeito e os pesquisadores desenvolveram um extenso vocabulário para descrever possíveis problemas. Validade refere-se à medida em que os resultados de um experimento específico sustentam uma conclusão mais geral. Os cientistas sociais acharam útil dividir a validade em quatro tipos principais: validade de conclusão estatística, validade interna, validade de construto e validade externa (Shadish, Cook, and Campbell 2001, chap. 2) . Dominar esses conceitos fornecerá uma lista mental para criticar e melhorar o design e a análise de um experimento, além de ajudá-lo a se comunicar com outros pesquisadores.

Validade de conclusão estatística gira em torno de se a análise estatística do experimento foi feita corretamente. No contexto de Schultz et al. (2007) , tal questão pode se concentrar em se eles calcularam seus valores \(p\) corretamente. Os princípios estatísticos necessários para projetar e analisar experimentos estão além do escopo deste livro, mas eles não mudaram fundamentalmente na era digital. O que mudou, no entanto, é que o ambiente de dados em experimentos digitais criou novas oportunidades, como o uso de métodos de aprendizado de máquina para estimar a heterogeneidade dos efeitos do tratamento (Imai and Ratkovic 2013) .

Centros de validade interna em torno de se os procedimentos experimentais foram realizados corretamente. Voltando ao experimento de Schultz et al. (2007) , questões sobre a validade interna poderiam centrar-se em torno de randomização, entrega de tratamento e medição dos resultados. Por exemplo, você pode estar preocupado que os assistentes de pesquisa não tenham lido os medidores elétricos de maneira confiável. Na verdade, Schultz e seus colegas estavam preocupados com esse problema e tiveram uma amostra de medidores lidos duas vezes; Felizmente, os resultados foram essencialmente idênticos. Em geral, a experiência de Schultz e colegas parece ter alta validade interna, mas nem sempre é o caso: campo complexo e experimentos on-line muitas vezes se deparam com problemas que realmente fornecem o tratamento certo para as pessoas certas e medem os resultados para todos. Felizmente, a era digital pode ajudar a reduzir as preocupações sobre validade interna, porque agora é mais fácil garantir que o tratamento seja entregue àqueles que devem recebê-lo e medir os resultados para todos os participantes.

A validade de construto gira em torno da correspondência entre os dados e as construções teóricas. Como discutido no capítulo 2, os construtos são conceitos abstratos que os cientistas sociais raciocinam. Infelizmente, esses conceitos abstratos nem sempre têm definições e medidas claras. Voltando a Schultz et al. (2007) , a alegação de que normas sociais injuntivas podem reduzir o uso de eletricidade exige que os pesquisadores planejem um tratamento que manipule “normas sociais injuntivas” (por exemplo, um emoticon) e meça “uso de eletricidade”. Em experimentos analógicos, muitos pesquisadores projetaram seus próprios tratamentos e mediram seus próprios resultados. Essa abordagem garante que, tanto quanto possível, os experimentos combinem com os construtos abstratos que estão sendo estudados. Em experimentos digitais, em que os pesquisadores fazem parcerias com empresas ou governos para fornecer tratamentos e usar sistemas de dados sempre ativos para medir os resultados, a correspondência entre o experimento e as construções teóricas pode ser menos rigorosa. Assim, espero que a validade de construto tenda a ser uma preocupação maior em experimentos digitais do que em experimentos analógicos.

Finalmente, a validade externa gira em torno de saber se os resultados desse experimento podem ser generalizados para outras situações. Voltando a Schultz et al. (2007) , poder-se-ia perguntar se essa mesma ideia - fornecer às pessoas informações sobre seu uso de energia em relação a seus pares e um sinal de normas injuntivas (por exemplo, um emoticon) - reduziria o uso de energia se fosse feito de uma maneira diferente em um cenário diferente. Para a maioria dos experimentos bem projetados e bem administrados, as preocupações sobre validade externa são as mais difíceis de resolver. No passado, esses debates sobre validade externa freqüentemente envolviam nada mais do que um grupo de pessoas sentadas em uma sala tentando imaginar o que teria acontecido se os procedimentos tivessem sido feitos de uma maneira diferente, ou em um lugar diferente, ou com participantes diferentes. . Felizmente, a era digital permite aos pesquisadores ir além dessas especulações livres de dados e avaliar empiricamente a validade externa.

Porque os resultados de Schultz et al. (2007) foram tão empolgantes que uma empresa chamada Opower se associou a utilitários nos Estados Unidos para implantar o tratamento de forma mais ampla. Baseado no desenho de Schultz et al. (2007) , a Opower criou Relatórios de Energia Doméstica personalizados que tinham dois módulos principais: um mostrando o uso de eletricidade de uma família em relação a seus vizinhos com um emoticon e um fornecendo dicas para reduzir o uso de energia (figura 4.6). Então, em parceria com pesquisadores, a Opower realizou experimentos controlados e randomizados para avaliar o impacto desses Relatórios de Energia Doméstica. Embora os tratamentos nesses experimentos fossem normalmente realizados fisicamente - geralmente por meio do correio tradicional antiquado -, o resultado era medido usando dispositivos digitais no mundo físico (por exemplo, medidores de energia). Além disso, em vez de coletar manualmente essas informações com assistentes de pesquisa que visitam cada casa, os experimentos da Opower foram feitos em parceria com empresas de energia, permitindo que os pesquisadores acessassem as leituras de energia. Assim, esses experimentos de campo parcialmente digitais foram executados em escala maciça a baixo custo variável.

Figura 4.6: O Home Energy Reports tinha um Módulo de Comparação Social e um Módulo de Etapas de Ação. Reproduzido com permissão de Allcott (2011), figuras 1 e 2.

Figura 4.6: O Home Energy Reports tinha um Módulo de Comparação Social e um Módulo de Etapas de Ação. Reproduzido com permissão de Allcott (2011) , figuras 1 e 2.

Em um primeiro conjunto de experimentos envolvendo 600.000 domicílios de 10 locais diferentes, Allcott (2011) descobriu que o Home Energy Report reduziu o consumo de eletricidade. Em outras palavras, os resultados do estudo muito maior e mais geograficamente diverso foram qualitativamente similares aos resultados de Schultz et al. (2007) . Além disso, em pesquisa subsequente envolvendo oito milhões de residências adicionais de 101 locais diferentes, Allcott (2015) descobriu novamente que o Relatório de Energia Doméstica reduziu consistentemente o consumo de eletricidade. Esse conjunto muito maior de experimentos também revelou um novo padrão interessante que não seria visível em nenhum experimento: o tamanho do efeito declinou nos experimentos posteriores (figura 4.7). Allcott (2015) especulou que esse declínio ocorreu porque, ao longo do tempo, o tratamento estava sendo aplicado a diferentes tipos de participantes. Mais especificamente, as empresas de serviços públicos com clientes mais focados no ambiente eram mais propensas a adotar o programa mais cedo, e seus clientes respondiam melhor ao tratamento. Como as concessionárias com clientes menos focados no meio ambiente adotaram o programa, sua eficácia pareceu diminuir. Assim, assim como a randomização em experimentos assegura que o tratamento e o grupo de controle sejam semelhantes, a randomização em locais de pesquisa garante que as estimativas possam ser generalizadas de um grupo de participantes para uma população mais geral (pense no capítulo 3 sobre amostragem). Se os locais de pesquisa não forem amostrados aleatoriamente, a generalização - mesmo a partir de um experimento perfeitamente projetado e conduzido - pode ser problemática.

Figura 4.7: Resultados de 111 experimentos testando o efeito do Relatório de Energia Doméstica sobre o consumo de eletricidade. Nos locais onde o programa foi adotado mais tarde, tendia a ter efeitos menores. Allcott (2015) argumenta que uma das principais fontes desse padrão é que os sites com clientes mais focados no meio ambiente eram mais propensos a adotar o programa anteriormente. Adaptado de Allcott (2015), figura 3.

Figura 4.7: Resultados de 111 experimentos testando o efeito do Relatório de Energia Doméstica sobre o consumo de eletricidade. Nos locais onde o programa foi adotado mais tarde, tendia a ter efeitos menores. Allcott (2015) argumenta que uma das principais fontes desse padrão é que os sites com clientes mais focados no meio ambiente eram mais propensos a adotar o programa anteriormente. Adaptado de Allcott (2015) , figura 3.

Juntos, esses 111 experimentos - 10 em Allcott (2011) e 101 em Allcott (2015) envolveram cerca de 8,5 milhões de domicílios de todos os Estados Unidos. Eles mostram consistentemente que a Home Energy Reports reduz o consumo médio de eletricidade, um resultado que apóia as descobertas originais de Schultz e colegas de 300 lares na Califórnia. Além de apenas replicar esses resultados originais, os experimentos de acompanhamento também mostram que o tamanho do efeito varia de acordo com o local. Este conjunto de experimentos também ilustra mais dois pontos gerais sobre experimentos de campo parcialmente digitais. Primeiro, os pesquisadores serão capazes de abordar empiricamente as preocupações sobre a validade externa quando o custo de execução de experimentos for baixo, e isso pode ocorrer se o resultado já estiver sendo medido por um sistema de dados sempre ativo. Portanto, sugere que os pesquisadores devem estar atentos a outros comportamentos interessantes e importantes que já estão sendo registrados e, então, projetar experimentos em cima dessa infra-estrutura de medição existente. Em segundo lugar, este conjunto de experimentos nos lembra que experimentos de campo digitais não são apenas online; Cada vez mais, espero que eles estejam em todos os lugares com muitos resultados medidos por sensores no ambiente construído.

Os quatro tipos de validade - validade de conclusão estatística, validade interna, validade de construto e validade externa - fornecem uma lista mental para ajudar os pesquisadores a avaliar se os resultados de um experimento em particular dão suporte a uma conclusão mais geral. Comparado com experimentos de idade analógica, em experimentos de era digital, deveria ser mais fácil abordar a validade externa empiricamente, e também deveria ser mais fácil garantir a validade interna. Por outro lado, questões de validade de construto provavelmente serão mais desafiadoras em experimentos de era digital, especialmente experimentos de campo digitais que envolvam parcerias com empresas.