4.4 Más allá de experimentos sencillos

Avancemos más allá de los experimentos simples. Tres conceptos son útiles para experimentos enriquecidos: validez, heterogeneidad de los efectos del tratamiento y mecanismos.

Los investigadores que son nuevos en los experimentos a menudo se centran en una pregunta muy específica y limitada: ¿este tratamiento "funciona"? Por ejemplo, ¿una llamada telefónica de un voluntario anima a alguien a votar? ¿Cambiar el botón de un sitio web de azul a verde aumenta la tasa de clics? Desafortunadamente, el fraseo suelto sobre lo que "funciona" oscurece el hecho de que los experimentos estrechamente enfocados en realidad no le dicen si un tratamiento "funciona" en un sentido general. Por el contrario, los experimentos de enfoque restringido responden a una pregunta mucho más específica: ¿Cuál es el efecto promedio de este tratamiento específico con esta implementación específica para esta población de participantes en este momento? Llamaré experimentos que se centran en esta pregunta estrecha experimentos simples .

Los experimentos simples pueden proporcionar información valiosa, pero no responden a muchas preguntas que son importantes e interesantes, como por ejemplo si hay personas para quienes el tratamiento tuvo un efecto mayor o menor; si hay otro tratamiento que sería más efectivo; y si este experimento se relaciona con teorías sociales más amplias.

Para mostrar el valor de ir más allá de experimentos simples, consideremos un experimento de campo analógico de P. Wesley Schultz y sus colegas sobre la relación entre las normas sociales y el consumo de energía (Schultz et al. 2007) . Schultz y sus colegas colgaron la puerta de entrada a 300 hogares en San Marcos, California, y estas puertas entregaron diferentes mensajes diseñados para alentar la conservación de energía. Luego, Schultz y sus colegas midieron el efecto de estos mensajes en el consumo de electricidad, tanto después de una semana como después de tres semanas; ver figura 4.3 para una descripción más detallada del diseño experimental.

Figura 4.3: Esquema del diseño experimental de Schultz et al. (2007). El experimento de campo involucró la visita de unas 300 familias en San Marcos, California, cinco veces durante un período de ocho semanas. En cada visita, los investigadores tomaron manualmente una lectura del medidor de potencia de la casa. En dos de las visitas, colocaron puertas en cada casa y proporcionaron cierta información sobre el uso de energía del hogar. La pregunta de investigación fue cómo el contenido de estos mensajes podría afectar el uso de energía.

Figura 4.3: Esquema del diseño experimental de Schultz et al. (2007) . El experimento de campo involucró la visita de unas 300 familias en San Marcos, California, cinco veces durante un período de ocho semanas. En cada visita, los investigadores tomaron manualmente una lectura del medidor de potencia de la casa. En dos de las visitas, colocaron puertas en cada casa y proporcionaron cierta información sobre el uso de energía del hogar. La pregunta de investigación fue cómo el contenido de estos mensajes podría afectar el uso de energía.

El experimento tenía dos condiciones. En la primera, los hogares recibieron consejos generales de ahorro de energía (por ejemplo, usan ventiladores en lugar de aires acondicionados) e información sobre su uso de energía en comparación con el uso de energía promedio en su vecindario. Schultz y sus colegas llamaron a esto la condición normativa descriptiva porque la información sobre el uso de energía en el barrio proporcionaba información sobre el comportamiento típico (es decir, una norma descriptiva). Cuando Schultz y sus colegas analizaron el uso de energía resultante en este grupo, el tratamiento pareció no tener efecto, ni a corto ni a largo plazo; en otras palabras, el tratamiento no pareció "funcionar" (figura 4.4).

Afortunadamente, Schultz y sus colegas no se conformaron con este análisis simplista. Antes de que comenzara el experimento, razonaron que los grandes consumidores de electricidad -personas por encima de la media- podrían reducir su consumo, y que los usuarios ligeros de electricidad -personas por debajo de la media- en realidad podrían aumentar su consumo. Cuando miraron los datos, eso es exactamente lo que encontraron (figura 4.4). Por lo tanto, lo que parecía ser un tratamiento que no estaba teniendo efecto era en realidad un tratamiento que tenía dos efectos compensatorios. Este aumento contraproducente entre los usuarios de la luz es un ejemplo de efecto boomerang , donde un tratamiento puede tener el efecto opuesto de lo que se pretendía.

Figura 4.4: Resultados de Schultz et al. (2007). El panel (a) muestra que el tratamiento de la norma descriptiva tiene un efecto de tratamiento promedio cero estimado. Sin embargo, el panel (b) muestra que este efecto promedio del tratamiento en realidad se compone de dos efectos de compensación. Para los usuarios intensivos, el tratamiento disminuyó el uso, pero para los usuarios leves, el tratamiento aumentó el uso. Finalmente, el panel (c) muestra que el segundo tratamiento, que usó normas descriptivas y prescriptivas, tuvo aproximadamente el mismo efecto en usuarios intensos pero mitigó el efecto boomerang en usuarios de luz. Adaptado de Schultz et al. (2007).

Figura 4.4: Resultados de Schultz et al. (2007) . El panel (a) muestra que el tratamiento de la norma descriptiva tiene un efecto de tratamiento promedio cero estimado. Sin embargo, el panel (b) muestra que este efecto promedio del tratamiento en realidad se compone de dos efectos de compensación. Para los usuarios intensivos, el tratamiento disminuyó el uso, pero para los usuarios leves, el tratamiento aumentó el uso. Finalmente, el panel (c) muestra que el segundo tratamiento, que usó normas descriptivas y prescriptivas, tuvo aproximadamente el mismo efecto en usuarios intensos pero mitigó el efecto boomerang en usuarios de luz. Adaptado de Schultz et al. (2007) .

Simultáneamente a la primera condición, Schultz y sus colegas también corrieron una segunda condición. Los hogares en la segunda condición recibieron exactamente el mismo tratamiento: consejos generales de ahorro de energía e información sobre el uso de energía de su hogar en comparación con el promedio de su vecindario, con una pequeña adición: para las personas con un consumo inferior al promedio, los investigadores agregaron: ) y para las personas con un consumo superior al promedio, agregaron a :(. Estos emoticones fueron diseñados para desencadenar lo que los investigadores llamaron normas cautelares . Las normas judiciales se refieren a las percepciones de lo que comúnmente se aprueba (y desaprobaba), mientras que las descriptivas se refieren a percepciones de lo que se hace comúnmente (Reno, Cialdini, and Kallgren 1993) .

Al agregar este pequeño emoticón, los investigadores redujeron drásticamente el efecto boomerang (figura 4.4). Por lo tanto, al hacer de este un cambio simple, un cambio que fue motivado por una teoría psicológica social abstracta (Cialdini, Kallgren, and Reno 1991) , los investigadores pudieron convertir un programa que no parecía funcionar en uno que funcionaba, y, simultáneamente, pudieron contribuir a la comprensión general de cómo las normas sociales afectan el comportamiento humano.

En este punto, sin embargo, es posible que notes que algo es un poco diferente con respecto a este experimento. En particular, el experimento de Schultz y sus colegas en realidad no tiene un grupo de control de la misma manera que los experimentos controlados aleatorios. Una comparación entre este diseño y el de Restivo y van de Rijt ilustra las diferencias entre dos diseños experimentales principales. En diseños entre sujetos , como el de Restivo y van de Rijt, hay un grupo de tratamiento y un grupo de control. En los diseños dentro de los sujetos , por otro lado, se compara el comportamiento de los participantes antes y después del tratamiento (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . En un experimento dentro de la asignatura, es como si cada participante actuara como su propio grupo de control. La fuerza de los diseños entre sujetos es que brindan protección contra los factores de confusión (como describí anteriormente), mientras que la fuerza de los experimentos dentro de los sujetos aumenta la precisión de las estimaciones. Finalmente, para presagiar una idea que vendrá más tarde cuando ofrezco consejos sobre el diseño de experimentos digitales, un diseño mixto combina la precisión mejorada de los diseños dentro de los sujetos y la protección contra la confusión de diseños entre sujetos (figura 4.5).

Figura 4.5: Tres diseños experimentales. Los experimentos controlados aleatorios estándar usan diseños entre sujetos. Un ejemplo de diseño entre sujetos es el experimento de Restivo y van de Rijt (2012) sobre barnstars y contribuciones a Wikipedia: los investigadores dividieron aleatoriamente a los participantes en grupos de tratamiento y control, dieron a los participantes del grupo de tratamiento una granada y compararon los resultados para el dos grupos. El segundo tipo de diseño es un diseño dentro de los sujetos. Los dos experimentos en el estudio de Schultz y sus colegas (2007) sobre normas sociales y uso de energía ilustran un diseño dentro de los sujetos: los investigadores compararon el uso de electricidad de los participantes antes y después de recibir el tratamiento. Los diseños dentro de los sujetos ofrecen una precisión estadística mejorada, pero están abiertos a posibles factores de confusión (por ejemplo, cambios en el clima entre los períodos de pretratamiento y tratamiento) (Greenwald 1976, Charness, Gneezy y Kuhn 2012). Los diseños dentro de los sujetos también se denominan a veces diseños de medidas repetidas. Finalmente, los diseños combinados combinan la precisión mejorada de los diseños dentro de los sujetos y la protección contra la confusión de los diseños entre sujetos. En un diseño mixto, un investigador compara el cambio en los resultados para las personas en los grupos de tratamiento y control. Cuando los investigadores ya tienen información previa al tratamiento, como es el caso en muchos experimentos digitales, los diseños mixtos son generalmente preferibles a los diseños entre sujetos porque dan como resultado una precisión de las estimaciones mejorada.

Figura 4.5: Tres diseños experimentales. Los experimentos controlados aleatorios estándar usan diseños entre sujetos . Un ejemplo de diseño entre sujetos es el experimento de Restivo y van de Rijt (2012) sobre barnstars y contribuciones a Wikipedia: los investigadores dividieron aleatoriamente a los participantes en grupos de tratamiento y control, dieron a los participantes del grupo de tratamiento una granada y compararon los resultados para el dos grupos. El segundo tipo de diseño es un diseño dentro de los sujetos . Los dos experimentos en el estudio de Schultz y sus colegas (2007) sobre normas sociales y uso de energía ilustran un diseño dentro de los sujetos: los investigadores compararon el uso de electricidad de los participantes antes y después de recibir el tratamiento. Los diseños dentro de los sujetos ofrecen una precisión estadística mejorada, pero están abiertos a posibles factores de confusión (por ejemplo, cambios en el clima entre los períodos de tratamiento previo y tratamiento) (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . Los diseños dentro de los sujetos también se denominan a veces diseños de medidas repetidas. Finalmente, los diseños combinados combinan la precisión mejorada de los diseños dentro de los sujetos y la protección contra la confusión de los diseños entre sujetos. En un diseño mixto, un investigador compara el cambio en los resultados para las personas en los grupos de tratamiento y control. Cuando los investigadores ya tienen información previa al tratamiento, como es el caso en muchos experimentos digitales, los diseños mixtos son generalmente preferibles a los diseños entre sujetos porque dan como resultado una precisión de las estimaciones mejorada.

En general, el diseño y los resultados del estudio de Schultz y sus colegas (2007) muestran el valor de ir más allá de los experimentos simples. Afortunadamente, no es necesario ser un genio creativo para diseñar experimentos como este. Los científicos sociales han desarrollado tres conceptos que lo guiarán hacia experimentos más ricos: (1) validez, (2) heterogeneidad de los efectos del tratamiento y (3) mecanismos. Es decir, si mantiene estas tres ideas en mente mientras diseña su experimento, naturalmente creará un experimento más interesante y útil. Para ilustrar estos tres conceptos en acción, describiré una serie de experimentos de campo parcialmente digitales de seguimiento que se basaron en el diseño elegante y los resultados emocionantes de Schultz y colegas (2007) . Como verá, a través de un diseño, implementación, análisis e interpretación más cuidadosos, usted también puede ir más allá de los simples experimentos.