4.3 Dos dimensiones de experimentos: laboratorio de campo y analógico-digitales

Los experimentos de laboratorio ofrecen un control, los experimentos de campo ofrecen realismo, y experimentos de campo combinan digitales de control y realismo a escala.

Los experimentos vienen en diferentes formas y tamaños. En el pasado, los investigadores encontraron útil organizar experimentos a lo largo de un continuo entre los experimentos de laboratorio y los experimentos de campo . Ahora, sin embargo, los investigadores también deberían organizar experimentos a lo largo de un segundo continuo entre experimentos analógicos y experimentos digitales . Este espacio de diseño bidimensional lo ayudará a comprender las fortalezas y debilidades de los diferentes enfoques y resaltará las áreas de mayor oportunidad (figura 4.1).

Figura 4.1: Esquema del espacio de diseño para experimentos. En el pasado, los experimentos variaban a lo largo de la dimensión del campo de laboratorio. Ahora, también varían en la dimensión analógico-digital. Este espacio de diseño bidimensional se ilustra con cuatro experimentos que describo en este capítulo. En mi opinión, el área de mayor oportunidad son los experimentos de campo digitales.

Figura 4.1: Esquema del espacio de diseño para experimentos. En el pasado, los experimentos variaban a lo largo de la dimensión del campo de laboratorio. Ahora, también varían en la dimensión analógico-digital. Este espacio de diseño bidimensional se ilustra con cuatro experimentos que describo en este capítulo. En mi opinión, el área de mayor oportunidad son los experimentos de campo digitales.

Una dimensión a lo largo de la cual se pueden organizar los experimentos es la dimensión del campo de laboratorio. Muchos experimentos en las ciencias sociales son experimentos de laboratorio en los que los estudiantes de pregrado realizan tareas extrañas en un laboratorio para obtener créditos para el curso. Este tipo de experimento domina la investigación en psicología porque permite a los investigadores crear entornos altamente controlados para aislar y probar con precisión teorías específicas sobre el comportamiento social. Para ciertos problemas, sin embargo, algo se siente un poco extraño al sacar conclusiones fuertes sobre el comportamiento humano de personas tan inusuales que realizan tareas inusuales en un entorno tan inusual. Estas preocupaciones han llevado a un movimiento hacia experimentos de campo . Los experimentos de campo combinan el fuerte diseño de experimentos de control aleatorio con grupos más representativos de participantes que realizan tareas más comunes en entornos más naturales.

Aunque algunas personas piensan en experimentos de laboratorio y de campo como métodos competitivos, es mejor pensar en ellos como complementarios, con diferentes fortalezas y debilidades. Por ejemplo, Correll, Benard, and Paik (2007) utilizaron tanto un experimento de laboratorio como un experimento de campo en un intento de encontrar las fuentes de la "pena de maternidad". En los Estados Unidos, las madres ganan menos dinero que las mujeres sin hijos, incluso cuando comparando mujeres con habilidades similares que trabajan en trabajos similares. Hay muchas explicaciones posibles para este patrón, una de las cuales es que los empleadores son parciales contra las madres. (Curiosamente, lo opuesto parece ser cierto para los padres: tienden a ganar más que los hombres sin hijos comparables). Para evaluar el posible prejuicio contra las madres, Correll y sus colegas realizaron dos experimentos: uno en el laboratorio y otro en el campo.

En primer lugar, en un experimento de laboratorio les dijeron a los participantes, que eran universitarios, que una empresa estaba realizando una búsqueda de empleo para una persona que dirigiera su nuevo departamento de mercadotecnia en la Costa Este. A los estudiantes se les dijo que la empresa quería su ayuda en el proceso de contratación, y se les pidió que revisaran los currículos de varios candidatos potenciales y calificaran a los candidatos en varias dimensiones, como su inteligencia, calidez y compromiso con el trabajo. Además, se les preguntó a los estudiantes si recomendarían contratar al solicitante y qué recomendarían como salario inicial. Sin embargo, sin el conocimiento de los estudiantes, los currículos se construyeron específicamente para ser similares, excepto por una cosa: algunos señalaron la maternidad (al incluir una participación en una asociación de padres y maestros) y otros no. Correll y sus colegas encontraron que era menos probable que los estudiantes recomendaran contratar a las madres y que les ofrecían un salario inicial más bajo. Además, a través de un análisis estadístico de las calificaciones y las decisiones relacionadas con la contratación, Correll y sus colegas descubrieron que las desventajas de las madres se explicaban en gran parte por el hecho de que tenían una calificación más baja en términos de competencia y compromiso. Por lo tanto, este experimento de laboratorio permitió a Correll y sus colegas medir un efecto causal y proporcionar una posible explicación para ese efecto.

Por supuesto, uno podría ser escéptico acerca de sacar conclusiones sobre todo el mercado laboral de los EE. UU. Basándose en las decisiones de unos pocos cientos de estudiantes universitarios que probablemente nunca hayan tenido un trabajo a tiempo completo, y mucho menos hayan contratado a alguien. Por lo tanto, Correll y sus colegas también realizaron un experimento de campo complementario. Respondieron a cientos de ofertas de trabajo anunciadas con cartas de presentación falsas y hojas de vida. Al igual que los materiales mostrados a los estudiantes de pregrado, algunos currículos señalaron la maternidad y otros no. Correll y sus colegas descubrieron que las madres tenían menos probabilidades de ser llamadas para entrevistas que las mujeres sin hijos igualmente calificadas. En otras palabras, los empleadores reales que toman decisiones trascendentales en un entorno natural se comportaron de manera muy parecida a los estudiantes de pregrado. ¿Tomaron decisiones similares por la misma razón? Lamentablemente, no lo sabemos. Los investigadores no pudieron pedirle a los empleadores que calificaran a los candidatos ni explicaran sus decisiones.

Este par de experimentos revela mucho sobre experimentos de laboratorio y de campo en general. Los experimentos de laboratorio ofrecen a los investigadores un control casi total del entorno en el que los participantes toman decisiones. Entonces, por ejemplo, en el experimento de laboratorio, Correll y sus colegas pudieron asegurarse de que todos los currículums fueran leídos en un entorno tranquilo; en el experimento de campo, es posible que algunos de los currículums no se hayan leído. Además, debido a que los participantes en el laboratorio saben que están siendo estudiados, los investigadores a menudo pueden recopilar datos adicionales que pueden ayudar a explicar por qué los participantes toman sus decisiones. Por ejemplo, Correll y sus colegas pidieron a los participantes en el experimento de laboratorio que calificaran a los candidatos en diferentes dimensiones. Este tipo de datos de proceso podría ayudar a los investigadores a entender los mecanismos que hay detrás de las diferencias en la forma en que los participantes tratan los currículos.

Por otro lado, estas mismas características exactas que acabo de describir como ventajas también se consideran a veces desventajas. Los investigadores que prefieren los experimentos de campo argumentan que los participantes en los experimentos de laboratorio podrían actuar de forma muy diferente porque saben que están siendo estudiados. Por ejemplo, en el experimento de laboratorio, los participantes podrían haber adivinado el objetivo de la investigación y alterado su comportamiento para no parecer parcial. Además, los investigadores que prefieren los experimentos de campo podrían argumentar que las pequeñas diferencias en los currículos solo pueden destacarse en un entorno de laboratorio estéril y muy limpio, por lo que el experimento de laboratorio sobreestimará el efecto de la maternidad en las decisiones reales de contratación. Finalmente, muchos defensores de los experimentos de campo critican la confianza de los experimentos de laboratorio en los participantes de WEIRD: principalmente estudiantes de países occidentales, educados, industrializados, ricos y demócratas (Henrich, Heine, and Norenzayan 2010a) . Los experimentos de Correll y sus colegas (2007) ilustran los dos extremos en el continuo de campo de laboratorio. Entre estos dos extremos también hay una variedad de diseños híbridos, que incluyen enfoques tales como llevar a los no estudiantes a un laboratorio o ir al campo, pero aún tener participantes que realizan una tarea inusual.

Además de la dimensión del campo de laboratorio que ha existido en el pasado, la era digital significa que los investigadores ahora tienen una segunda dimensión principal a lo largo de la cual los experimentos pueden variar: analógico-digital. Del mismo modo que existen experimentos de laboratorio puros, experimentos de campo puros y una variedad de híbridos intermedios, existen experimentos análogos puros, experimentos digitales puros y una variedad de híbridos. Es difícil ofrecer una definición formal de esta dimensión, pero una definición de trabajo útil es que los experimentos completamente digitales son experimentos que hacen uso de la infraestructura digital para reclutar participantes, aleatorizar, ofrecer tratamientos y medir los resultados. Por ejemplo, el estudio realizado por Restivo y van de Rijt (2012) sobre barnstars y Wikipedia fue un experimento completamente digital porque utilizó sistemas digitales para los cuatro pasos. Del mismo modo, los experimentos totalmente analógicos no hacen uso de la infraestructura digital para ninguno de estos cuatro pasos. Muchos de los experimentos clásicos en psicología son experimentos totalmente analógicos. Entre estos dos extremos, hay experimentos parcialmente digitales que usan una combinación de sistemas analógicos y digitales.

Cuando algunas personas piensan en experimentos digitales, inmediatamente piensan en experimentos en línea. Esto es desafortunado porque las oportunidades para ejecutar experimentos digitales no son solo en línea. Los investigadores pueden realizar experimentos parcialmente digitales mediante el uso de dispositivos digitales en el mundo físico con el fin de ofrecer tratamientos o medir los resultados. Por ejemplo, los investigadores podrían usar teléfonos inteligentes para entregar tratamientos o sensores en el entorno construido para medir los resultados. De hecho, como veremos más adelante en este capítulo, los investigadores ya han utilizado medidores de energía en el hogar para medir los resultados en experimentos sobre el consumo de energía que involucran a 8,5 millones de hogares (Allcott 2015) . A medida que los dispositivos digitales se integran cada vez más en las vidas de las personas y los sensores se integran en el entorno construido, estas oportunidades de realizar experimentos parcialmente digitales en el mundo físico aumentarán drásticamente. En otras palabras, los experimentos digitales no son solo experimentos en línea.

Los sistemas digitales crean nuevas posibilidades para experimentos en todas partes a lo largo del continuo del campo de laboratorio. En experimentos de laboratorio puros, por ejemplo, los investigadores pueden usar sistemas digitales para medir mejor el comportamiento de los participantes; Un ejemplo de este tipo de medición mejorada es el equipo de seguimiento ocular que proporciona medidas precisas y continuas de la ubicación de la mirada. La era digital también crea la posibilidad de ejecutar experimentos tipo laboratorio en línea. Por ejemplo, los investigadores han adoptado rápidamente Amazon Mechanical Turk (MTurk) para reclutar participantes para experimentos en línea (figura 4.2). MTurk coincide con los "empleadores" que tienen tareas que deben completarse con "trabajadores" que desean completar esas tareas por dinero. Sin embargo, a diferencia de los mercados laborales tradicionales, las tareas involucradas generalmente requieren solo unos minutos para completarse, y toda la interacción entre el empleador y el trabajador está en línea. Debido a que MTurk imita los aspectos de los experimentos de laboratorio tradicionales -pagar a las personas para que realicen tareas que no realizarían de forma gratuita-, es naturalmente adecuado para ciertos tipos de experimentos. Esencialmente, MTurk ha creado la infraestructura para gestionar un grupo de participantes -reclutando y pagando personas- y los investigadores han aprovechado esa infraestructura para aprovechar un grupo de participantes siempre disponible.

Figura 4.2: Documentos publicados utilizando datos de Amazon Mechanical Turk (MTurk). MTurk y otros mercados laborales en línea ofrecen a los investigadores una forma conveniente de reclutar participantes para experimentos. Adaptado de Bohannon (2016).

Figura 4.2: Documentos publicados utilizando datos de Amazon Mechanical Turk (MTurk). MTurk y otros mercados laborales en línea ofrecen a los investigadores una forma conveniente de reclutar participantes para experimentos. Adaptado de Bohannon (2016) .

Los sistemas digitales crean aún más posibilidades para experimentos de campo. En particular, permiten a los investigadores combinar el control estricto y los datos de proceso que están asociados con experimentos de laboratorio con participantes más diversos y entornos más naturales que están asociados con experimentos de laboratorio. Además, los experimentos de campo digitales también ofrecen tres oportunidades que tendieron a ser difíciles en los experimentos analógicos.

En primer lugar, mientras que la mayoría de los experimentos de laboratorio y de campo analógicos tienen cientos de participantes, los experimentos de campo digital pueden tener millones de participantes. Este cambio de escala se debe a que algunos experimentos digitales pueden producir datos a un costo variable cero. Es decir, una vez que los investigadores han creado una infraestructura experimental, aumentar el número de participantes generalmente no aumenta el costo. Aumentar el número de participantes por un factor de 100 o más no es solo un cambio cuantitativo ; es un cambio cualitativo , porque permite a los investigadores aprender cosas diferentes de los experimentos (por ejemplo, la heterogeneidad de los efectos del tratamiento) y ejecutar diseños experimentales completamente diferentes (por ejemplo, experimentos de grupos grandes). Este punto es tan importante que volveré al final del capítulo cuando ofrezca consejos sobre la creación de experimentos digitales.

En segundo lugar, mientras que la mayoría de los experimentos de laboratorio y de campo analógicos tratan a los participantes como widgets indistinguibles, los experimentos de campo digital a menudo usan información de fondo sobre los participantes en las etapas de diseño y análisis de la investigación. Esta información de fondo, que se denomina información previa al tratamiento , a menudo está disponible en experimentos digitales porque se ejecutan sobre sistemas de medición siempre activos (consulte el capítulo 2). Por ejemplo, un investigador en Facebook tiene mucha más información previa al tratamiento sobre las personas en su experimento de campo digital que un investigador universitario sobre las personas en su experimento de campo analógico. Este pretratamiento permite diseños experimentales más eficientes, como el bloqueo (Higgins, Sävje, and Sekhon 2016) y el reclutamiento dirigido de participantes (Eckles, Kizilcec, and Bakshy 2016) y análisis más profundos, como la estimación de la heterogeneidad de los efectos del tratamiento (Athey and Imbens 2016a) y ajuste de las covariables para una precisión mejorada (Bloniarz et al. 2016) .

En tercer lugar, mientras que muchos experimentos de laboratorio y campo analógicos entregan tratamientos y miden los resultados en una cantidad relativamente comprimida de tiempo, algunos experimentos de campo digitales ocurren en escalas de tiempo mucho más largas. Por ejemplo, el experimento de Restivo y van de Rijt midió el resultado diariamente durante 90 días, y uno de los experimentos del que les hablaré más adelante en el capítulo (Ferraro, Miranda, and Price 2011) siguió los resultados durante tres años básicamente sin costo. Estas tres oportunidades (tamaño, información previa al tratamiento y tratamiento longitudinal y datos de resultado) surgen más comúnmente cuando los experimentos se ejecutan sobre sistemas de medición siempre activos (consulte el capítulo 2 para obtener más información sobre sistemas de medición siempre activos).

Si bien los experimentos de campo digitales ofrecen muchas posibilidades, también comparten algunas debilidades tanto con el laboratorio analógico como con los experimentos de campo analógico. Por ejemplo, los experimentos no pueden usarse para estudiar el pasado, y solo pueden estimar los efectos de los tratamientos que pueden manipularse. Además, aunque los experimentos son indudablemente útiles para orientar la política, la orientación exacta que pueden ofrecer es algo limitada debido a complicaciones tales como la dependencia ambiental, los problemas de cumplimiento y los efectos de equilibrio (Banerjee and Duflo 2009; Deaton 2010) . Los experimentos de campo digitales también aumentan las preocupaciones éticas creadas por los experimentos de campo, un tema que abordaré más adelante en este capítulo y en el capítulo 6.