4.4.1 Validez

Validez refírese a como os resultados dun experimento apoiar unha conclusión máis xeral.

Ningún experimento é perfecto e os investigadores desenvolveron un extenso vocabulario para describir os posibles problemas. A validez refírese á medida en que os resultados dun experimento particular apoian unha conclusión máis xeral. Os científicos sociais atoparon útil dividir a validez en catro tipos principais: validación de conclusión estatística, validez interna, validez de (Shadish, Cook, and Campbell 2001, chap. 2) e validez externa (Shadish, Cook, and Campbell 2001, chap. 2) . O dominio destes conceptos proporcionaráche unha lista de comprobación mental para criticar e mellorar o deseño e análise dun experimento e axudarache a comunicarte con outros investigadores.

A validez da conclusión estatística centra se a análise estatística do experimento se realizou correctamente. No contexto de Schultz et al. (2007) , tal pregunta pode centrarse en se computaban os seus valores \(p\) correctamente. Os principios estatísticos necesarios para deseñar e analizar experimentos están fóra do alcance deste libro, pero non cambiaron fundamentalmente na era dixital. O que cambiou, non obstante, é que o ambiente de datos en experimentos dixitais creou novas oportunidades como a utilización de métodos de aprendizaxe automático para estimar a heteroxeneidade dos efectos do tratamento (Imai and Ratkovic 2013) .

A validez interna centra se os procedementos experimentais realizáronse correctamente. Volvendo ao experimento de Schultz et al. (2007) , as preguntas sobre a validez interna poden centrarse na aleatorización, a entrega do tratamento e a medición dos resultados. Por exemplo, pode preocuparse que os asistentes de investigación non lin os contadores eléctricos de forma fiable. De feito, Schultz e compañeiros estaban preocupados por este problema e tiñan unha mostra de metros lidos dúas veces; Afortunadamente, os resultados foron esencialmente idénticos. En xeral, o experimento de Schultz e colegas parece ter unha alta validez interna, pero non sempre é así: o campo complexo e os experimentos en liña adoitan estar en problemas que realmente dan o tratamento adecuado ás persoas adecuadas e miden os resultados para todos. Afortunadamente, a idade dixital pode axudar a reducir as preocupacións sobre a validez interna xa que agora é máis doado garantir que o tratamento sexa entregado aos que se supoñen recibir e medir os resultados para todos os participantes.

Construír os centros de validez en torno ao xogo entre os datos e as construcións teóricas. Tal como se discute no capítulo 2, as construcións son conceptos abstractos que os científicos sociais discuten. Desafortunadamente, estes conceptos abstractos non sempre teñen definicións e medidas claras. Volvendo a Schultz et al. (2007) , a afirmación de que as normas sociais cautelares poden diminuír o consumo de electricidade requiren que os investigadores deseñen un tratamento que manipule "normas xudiciais de carácter social" (por exemplo, un emoticono) e para medir o "uso de electricidade". En experimentos analóxicos, moitos investigadores deseñaron os seus propios tratamentos e midieron os seus propios resultados. Este enfoque garante que, na medida do posible, os experimentos coincidan coas estruturas abstractas que se están a estudar. Nos experimentos dixitais onde os investigadores se asocian con empresas ou gobernos para entregar tratamentos e utilizar sempre sistemas de datos para medir os resultados, a coincidencia entre o experimento e as construcións teóricas pode ser menos axustado. Así, espero que a validez da construción adoita ser unha preocupación maior en experimentos dixitais que en experimentos analóxicos.

Finalmente, a validez externa se centra en se os resultados deste experimento poden xeneralizarse noutras situacións. Volvendo a Schultz et al. (2007) , pódese preguntar se esta mesma idea proporcionaba ás persoas información sobre o seu uso enerxético en relación cos seus pares e un sinal de normas cautelares (por exemplo, un emoticono): reduciría o uso de enerxía se fose feito dun xeito diferente nunha configuración diferente. Para a maioría dos experimentos ben deseñados e ben realizados, as preocupacións sobre a validez externa son as máis difíciles de abordar. No pasado, estes debates sobre a validez externa non eran máis que un grupo de persoas sentado nunha sala que intentaban imaxinar o que acontecería se os procedementos fosen feitos dun xeito diferente ou nun lugar diferente ou con diferentes participantes . Afortunadamente, a era dixital permite aos investigadores superar estas especulacións sen datos e avaliar empíricamente a validez externa.

Porque os resultados de Schultz et al. (2007) foron tan emocionantes, unha empresa chamada Opower asociada con utilidades nos Estados Unidos para despregar o tratamento máis amplamente. Baseado no deseño de Schultz et al. (2007) , Opower creou informes de enerxía doméstica personalizados que tiñan dous módulos principais: un que mostra o uso de electricidade dun fogar en relación aos seus veciños cun emoticono e outro que ofrece consellos para diminuír o consumo de enerxía (figura 4.6). Entón, en colaboración con investigadores, Opower executaba experimentos controlados ao azar para avaliar o impacto destes informes de enerxía doméstica. A pesar de que os tratamentos destes experimentos normalmente foron entregados físicamente, xeralmente a través do correo antigo de caracol, o resultado foi medido usando dispositivos dixitais no mundo físico (por exemplo, os contadores de enerxía). Ademais, no canto de recolectar manualmente esta información cos asistentes de investigación que visitaron cada casa, os experimentos de Opower fixéronse en colaboración con compañías de enerxía que permitían aos investigadores acceder ás lecturas de enerxía. Deste xeito, estes experimentos de campo parcialmente dixitais foron executados a gran escala a baixo custo variable.

Figura 4.6: Os informes de enerxía doméstica tiñan un módulo de comparación social e un módulo de pasos de acción. Reproducido con permiso de Allcott (2011), figuras 1 e 2.

Figura 4.6: Os informes de enerxía doméstica tiñan un módulo de comparación social e un módulo de pasos de acción. Reproducido con permiso de Allcott (2011) , figuras 1 e 2.

Nun primeiro conxunto de experimentos que inclúen 600.000 fogares de 10 sitios diferentes, Allcott (2011) descubriu que o Home Energy Report reduciu o consumo de electricidade. Noutras palabras, os resultados do estudo moito máis amplo e máis xeograficamente foron cualitativamente semellantes aos resultados de Schultz et al. (2007) . Ademais, en investigacións posteriores que inclúen oito millóns de fogares adicionais de 101 sitios distintos, Allcott (2015) volveu a descubrir que o Informe de Enerxía Interior reduciu de forma consistente o consumo de electricidade. Este conxunto de experimentos máis grande tamén revelou un patrón novo e interesante que non sería visible en ningún experimento: o tamaño do efecto diminuíu nos experimentos posteriores (figura 4.7). Allcott (2015) especulou que este descenso ocorreu porque, co paso do tempo, o tratamento aplicábase a diferentes tipos de participantes. Máis concretamente, as empresas de servizos con clientes máis enfocados no medio ambiente foron máis probables adoptar o programa antes, e os seus clientes responderon máis ao tratamento. Como os servizos públicos con clientes menos centrados no medio ambiente adoptaron o programa, a súa eficacia parece diminuír. Así, como a aleatorización nos experimentos asegura que o grupo de tratamento e control sexa similar, a aleatorización nos sitios de investigación asegura que as estimacións sexan xeneralizadas dun grupo de participantes a unha poboación máis xeneralizada (pense de novo no capítulo 3 sobre a mostraxe). Se os sitios de investigación non se muestran de forma aleatoria, a xeralización, mesmo dun experimento perfectamente deseñado e conducido, pode ser problemático.

Figura 4.7: Resultados de 111 experimentos que testemuñan o efecto do Informe Home Energy sobre o consumo de electricidade. Nos sitios onde o programa foi adoptado posteriormente, tendía a ter efectos menores. Allcott (2015) argumenta que unha das principais fontes deste patrón é que os sitios con clientes máis enfocados no ambiente eran máis propensos a adoptar o programa anteriormente. Adaptado de Allcott (2015), figura 3.

Figura 4.7: Resultados de 111 experimentos que testemuñan o efecto do Informe Home Energy sobre o consumo de electricidade. Nos sitios onde o programa foi adoptado posteriormente, tendía a ter efectos menores. Allcott (2015) argumenta que unha das principais fontes deste patrón é que os sitios con clientes máis enfocados no ambiente eran máis propensos a adoptar o programa anteriormente. Adaptado de Allcott (2015) , figura 3.

Xuntos, estes 111 experimentos -10 en Allcott (2011) e 101 en Allcott (2015) -volviron preto de 8,5 millóns de fogares de todo os Estados Unidos. Demostran constantemente que Home Energy Reports reduce o consumo medio de electricidade, resultado que apoia os achados orixinais de Schultz e colegas de 300 fogares en California. Máis aló de replicar estes resultados orixinais, os experimentos de seguimento tamén demostran que o tamaño do efecto varía segundo a localización. Este conxunto de experimentos tamén ilustra dous puntos máis xerais sobre experimentos de campo parcialmente dixitais. En primeiro lugar, os investigadores poderán abordar empíricamente as preocupacións sobre a validez externa cando o custo de execución de experimentos é baixo e isto pode ocorrer se o resultado xa está sendo medido por un sistema de datos sempre. Polo tanto, suxire que os investigadores deberían estar a buscar outros comportamentos interesantes e importantes que xa están sendo gravados e, a continuación, deseñar experimentos sobre esta infraestrutura de medición existente. En segundo lugar, este conxunto de experimentos recórdanos que os experimentos de campo dixital non só están en liña; Cada vez máis, espero que estean en todas partes con moitos resultados medidos por sensores no ambiente construído.

Os catro tipos de validez de conclusión estatística de validez, validez interna, validez de compilación e validez externa: proporcionan unha lista de comprobación mental para axudar aos investigadores a valorar se os resultados dun experimento particular apoian unha conclusión máis xeral. En comparación cos experimentos en idade analógica, en experimentos con idade dixital, debería ser máis fácil abordar a validez externa empíricamente, e tamén debería ser máis doado garantir a validez interna. Doutra banda, os problemas de validez da construción probablemente serán máis reto en experimentos con idade dixital, especialmente experimentos de campo dixital que impliquen asociacións con empresas.