4.4.1 Validez

La validez se refiere a la cantidad de los resultados de un experimento apoyan una conclusión más general.

Ningún experimento es perfecto, y los investigadores han desarrollado un extenso vocabulario para describir posibles problemas. La validez se refiere a la medida en que los resultados de un experimento en particular respaldan una conclusión más general. Los científicos sociales han encontrado útil dividir la validez en cuatro tipos principales: validez de conclusión estadística, validez interna, validez de constructo y validez externa (Shadish, Cook, and Campbell 2001, chap. 2) . Dominar estos conceptos le proporcionará una lista de verificación mental para criticar y mejorar el diseño y el análisis de un experimento, y le ayudará a comunicarse con otros investigadores.

La validez de la conclusión estadística se centra en si el análisis estadístico del experimento se realizó correctamente. En el contexto de Schultz et al. (2007) , tal pregunta podría centrarse en si calcularon sus valores \(p\) correctamente. Los principios estadísticos necesarios para diseñar y analizar experimentos están más allá del alcance de este libro, pero no han cambiado fundamentalmente en la era digital. Sin embargo, lo que ha cambiado es que el entorno de datos en experimentos digitales ha creado nuevas oportunidades, como el uso de métodos de aprendizaje automático para estimar la heterogeneidad de los efectos del tratamiento (Imai and Ratkovic 2013) .

La validez interna se centra en si los procedimientos experimentales se realizaron correctamente. Volviendo al experimento de Schultz et al. (2007) , las preguntas sobre la validez interna podrían centrarse en la aleatorización, la administración del tratamiento y la medición de los resultados. Por ejemplo, podría estar preocupado de que los asistentes de investigación no leyeron los medidores eléctricos de manera confiable. De hecho, Schultz y sus colegas estaban preocupados por este problema, y ​​tenían una muestra de medidores leídos dos veces; Afortunadamente, los resultados fueron esencialmente idénticos. En general, el experimento de Schultz y sus colegas parece tener una alta validez interna, pero este no es siempre el caso: el campo complejo y los experimentos en línea a menudo tienen problemas para brindar el tratamiento correcto a las personas adecuadas y medir los resultados para todos. Afortunadamente, la era digital puede ayudar a reducir las preocupaciones sobre la validez interna porque ahora es más fácil garantizar que el tratamiento se entregue a quienes deben recibirlo y medir los resultados para todos los participantes.

La validez de construcción se centra en la coincidencia entre los datos y los constructos teóricos. Como se discutió en el capítulo 2, los constructos son conceptos abstractos sobre los que los científicos sociales razonan. Lamentablemente, estos conceptos abstractos no siempre tienen definiciones y mediciones claras. Volviendo a Schultz et al. (2007) , la afirmación de que las normas sociales cautelares pueden reducir el consumo de electricidad requiere que los investigadores diseñen un tratamiento que manipule las "normas sociales cautelares" (por ejemplo, un emoticón) y para medir el "consumo de electricidad". En experimentos análogos, muchos investigadores diseñaron sus propios tratamientos y midieron sus propios resultados. Este enfoque asegura que, en la medida de lo posible, los experimentos coincidan con las construcciones abstractas que se estudian. En experimentos digitales donde los investigadores se asocian con empresas o gobiernos para ofrecer tratamientos y utilizar sistemas de datos permanentes para medir los resultados, la coincidencia entre el experimento y los constructos teóricos puede ser menos estricta. Por lo tanto, espero que la validez de constructo tienda a ser una preocupación mayor en los experimentos digitales que en los experimentos analógicos.

Finalmente, la validez externa se centra alrededor de si los resultados de este experimento se pueden generalizar a otras situaciones. Volviendo a Schultz et al. (2007) , uno podría preguntarse si esta misma idea -al proporcionar a las personas información sobre su consumo de energía en relación con sus pares y una señal de normas cautelares (por ejemplo, un emoticón) - reduciría el consumo de energía si se hiciera de otra manera. en un entorno diferente. Para la mayoría de los experimentos bien diseñados y bien ejecutados, las preocupaciones sobre la validez externa son las más difíciles de abordar. En el pasado, estos debates sobre validez externa a menudo involucraban nada más que un grupo de personas sentadas en una sala tratando de imaginar qué hubiera pasado si los procedimientos se hubieran realizado de otra manera, en un lugar diferente o con diferentes participantes. . Afortunadamente, la era digital permite a los investigadores ir más allá de estas especulaciones sin datos y evaluar empíricamente la validez externa.

Porque los resultados de Schultz et al. (2007) fueron tan emocionantes, una compañía llamada Opower se asoció con empresas de servicios públicos en los Estados Unidos para implementar el tratamiento más ampliamente. Basado en el diseño de Schultz et al. (2007) , Opower creó Informes de energía del hogar personalizados que tenían dos módulos principales: uno que mostraba el uso de electricidad de un hogar en relación con sus vecinos con un emoticón y otro que proporcionaba consejos para reducir el consumo de energía (figura 4.6). Luego, en asociación con los investigadores, Opower realizó experimentos controlados aleatorios para evaluar el impacto de estos informes de energía en el hogar. A pesar de que los tratamientos en estos experimentos fueron típicamente entregados físicamente, generalmente a través de correo tradicional, el resultado se midió utilizando dispositivos digitales en el mundo físico (por ejemplo, medidores de potencia). Además, en lugar de recopilar manualmente esta información con los asistentes de investigación que visitan cada casa, los experimentos de Opower se realizaron en asociación con las compañías eléctricas, lo que permitió a los investigadores acceder a las lecturas de potencia. Por lo tanto, estos experimentos de campo parcialmente digitales se llevaron a cabo a escala masiva a bajo costo variable.

Figura 4.6: Los Informes de Energía del Hogar tenían un Módulo de Comparación Social y un Módulo de Pasos de Acción. Reproducido con permiso de Allcott (2011), figuras 1 y 2.

Figura 4.6: Los Informes de Energía del Hogar tenían un Módulo de Comparación Social y un Módulo de Pasos de Acción. Reproducido con permiso de Allcott (2011) , figuras 1 y 2.

En una primera serie de experimentos que involucraron a 600,000 hogares de 10 sitios diferentes, Allcott (2011) encontró que el Informe de Energía del Hogar redujo el consumo de electricidad. En otras palabras, los resultados del estudio mucho más amplio y geográficamente diverso fueron cualitativamente similares a los resultados de Schultz et al. (2007) . Además, en una investigación posterior que involucró a ocho millones de hogares adicionales de 101 sitios diferentes, Allcott (2015) volvió a encontrar que el Informe de energía del hogar redujo consistentemente el consumo de electricidad. Este conjunto mucho más grande de experimentos también reveló un nuevo patrón interesante que no sería visible en ningún experimento individual: el tamaño del efecto disminuyó en los experimentos posteriores (figura 4.7). Allcott (2015) especuló que esta disminución ocurrió porque, con el tiempo, el tratamiento se estaba aplicando a diferentes tipos de participantes. Más específicamente, es más probable que las empresas con clientes más enfocados en el medio ambiente adopten el programa antes, y sus clientes respondieron mejor al tratamiento. Como las empresas de servicios públicos con clientes menos enfocados en el medio ambiente adoptaron el programa, su efectividad pareció disminuir. Por lo tanto, así como la aleatorización en experimentos asegura que el grupo de tratamiento y control es similar, la aleatorización en sitios de investigación asegura que las estimaciones se pueden generalizar de un grupo de participantes a una población más general (piense en el capítulo 3 sobre muestreo). Si los sitios de investigación no se muestrean al azar, entonces la generalización, incluso a partir de un experimento perfectamente diseñado y realizado, puede ser problemático.

Figura 4.7: Resultados de 111 experimentos que probaron el efecto del Informe de energía del hogar sobre el consumo de electricidad. En los sitios donde el programa fue adoptado más tarde, tendía a tener efectos menores. Allcott (2015) argumenta que una fuente importante de este patrón es que los sitios con clientes más centrados en el medio ambiente tenían más probabilidades de adoptar el programa antes. Adaptado de Allcott (2015), figura 3.

Figura 4.7: Resultados de 111 experimentos que probaron el efecto del Informe de energía del hogar sobre el consumo de electricidad. En los sitios donde el programa fue adoptado más tarde, tendía a tener efectos menores. Allcott (2015) argumenta que una fuente importante de este patrón es que los sitios con clientes más centrados en el medio ambiente tenían más probabilidades de adoptar el programa antes. Adaptado de Allcott (2015) , figura 3.

En conjunto, estos 111 experimentos -10 en Allcott (2011) y 101 en Allcott (2015) involucraron en 8.5 millones de hogares de todo Estados Unidos. Constantemente muestran que Home Energy Reports reduce el consumo promedio de electricidad, un resultado que respalda los hallazgos originales de Schultz y colegas de 300 hogares en California. Más allá de simplemente replicar estos resultados originales, los experimentos de seguimiento también muestran que el tamaño del efecto varía según la ubicación. Este conjunto de experimentos también ilustra dos puntos más generales sobre experimentos de campo parcialmente digitales. En primer lugar, los investigadores podrán abordar empíricamente las preocupaciones sobre la validez externa cuando el costo de ejecutar experimentos sea bajo, y esto puede ocurrir si el resultado ya está siendo medido por un sistema de datos siempre activo. Por lo tanto, sugiere que los investigadores deben estar atentos a otros comportamientos interesantes e importantes que ya se están registrando, y luego diseñar experimentos sobre esta infraestructura de medición existente. En segundo lugar, este conjunto de experimentos nos recuerda que los experimentos de campo digitales no son solo en línea; cada vez más, espero que estén en todas partes con muchos resultados medidos por sensores en el entorno construido.

Los cuatro tipos de validez estadística de validez de validez interna, validez de constructo y validez externa proporcionan una lista de comprobación mental para ayudar a los investigadores a evaluar si los resultados de un experimento en particular respaldan una conclusión más general. En comparación con los experimentos de la edad analógica, en los experimentos de la era digital, debería ser más fácil abordar la validez externa empíricamente, y también debería ser más fácil garantizar la validez interna. Por otro lado, las cuestiones de validez de constructo probablemente serán más desafiantes en los experimentos de la era digital, especialmente los experimentos de campo digitales que involucran asociaciones con compañías.