4.6.2 Sustituir, Refinar, y reducir

Hacer su experimento más humano mediante la sustitución de los experimentos con los estudios no experimentales, el perfeccionamiento de los tratamientos, y la reducción del número de participantes.

El segundo consejo que me gustaría ofrecer sobre el diseño de experimentos digitales refiere a la ética. A medida que el experimento Restivo y van de Rijt en barnstars en espectáculos Wikipedia, la disminución de los costos significa que la ética se convertirán en una parte cada vez más importante del diseño de la investigación. Además de los marcos éticos que guían los sujetos humanos de investigación que voy a describir en el capítulo 6, los investigadores diseñar experimentos digitales también pueden basarse en las ideas éticas de una fuente diferente: los principios éticos desarrollados para guiar a los experimentos con animales. En particular, en sus Principios libro de referencia de técnica experimental Protectora de Animales, Russell and Burch (1959) proponen tres principios que deben guiar la investigación con animales: Reemplazo, refinar y Reducir. Me gustaría proponer que estos tres R también se puede utilizar en una forma ligeramente modificada, para guiar el diseño de experimentos humanos. En particular,

  • Reemplazar: reemplazar los experimentos con métodos menos invasivos, si es posible
  • Afinar: perfeccionar el tratamiento que sea lo más inocuo posible
  • Reducir: Reducir el número de participantes en el experimento tanto como sea posible

Con el fin de concretar estos tres R y muestran la forma en que potencialmente pueden conducir a una mejor y más humano diseño experimental, describiré un experimento de campo en línea que genera debate ético. A continuación voy a describir cómo las tres R sugerir cambios concretos y prácticos para el diseño del experimento.

Uno de los experimentos de campo digital más debatidos es éticamente "contagio emocional", que fue realizado por Adam Kramer, Jamie Gillroy, y Jeffrey Hancock (2014) . El experimento se llevó a cabo en Facebook y fue motivada por una mezcla de cuestiones científicas y prácticas. En ese momento, la forma dominante que los usuarios interactúan con Facebook era la fuente de noticias, un conjunto de algoritmos comisariado de actualizaciones de estado de Facebook de los amigos de Facebook de un usuario. Algunos críticos de Facebook habían sugerido que debido a que el News Feed tiene puestos de amigos mostrando su último partido en su mayoría positivas que podría hacer que los usuarios se sienten tristes porque sus vidas parecen menos emocionante en comparación. Por otra parte, tal vez el efecto es exactamente lo contrario; tal vez ver a su amigo que tiene un buen tiempo te haría sentir feliz? Con el fin de abordar estas hipótesis en competencia y para avanzar en nuestra comprensión de cómo las emociones de una persona se ven afectados por las emociones de sus amigos-Kramer y colegas realizaron un experimento. Los investigadores colocaron alrededor de 700.000 usuarios en cuatro grupos por una semana: un grupo "negatividad reducida", para los cuales los mensajes con palabras negativas (por ejemplo, triste) fueron bloqueados al azar aparezcan servidor de noticias; un grupo "positividad reducida" para quienes mensajes con palabras positivas (por ejemplo, feliz) fueron bloqueados al azar; y dos grupos de control. En el grupo de control para el grupo "negatividad reducido", publicaciones fueron bloqueadas al azar a la misma velocidad como el grupo "negatividad reducido", pero sin tener en cuenta el contenido emocional. El grupo de control para el grupo "positividad reducida" se construyó de una manera paralela. El diseño de este experimento ilustra que el grupo de control apropiado no es siempre uno sin cambios. Más bien, a veces, el grupo de control recibe un tratamiento con el fin de crear la comparación precisa que una pregunta de investigación requiere. En todos los casos, los mensajes que fueron bloqueadas desde el News Feed todavía estaban disponibles para los usuarios a través de otras partes del sitio web de Facebook.

Kramer y sus colegas encontraron que los participantes en la positividad reducen condición, el porcentaje de palabras positivas en sus actualizaciones de estado disminuyó y el porcentaje de palabras negativas aumentó. Por otra parte, para los participantes en la condición negatividad reducida, el porcentaje de palabras positivos aumentó y el porcentaje de palabras negativas disminuyó (Figura 4.23). Sin embargo, estos efectos eran bastante pequeñas: la diferencia de palabras positivas y negativas entre los tratamientos y controles fue de aproximadamente 1 de cada 1.000 palabras.

Figura 4.23: La evidencia de contagio emocional (Kramer, Guillory, y Hancock 2014). Porcentaje de palabras positivas y palabras negativas por condición experimental. Las barras representan errores estándar estimados.

Figura 4.23: La evidencia de contagio emocional (Kramer, Guillory, and Hancock 2014) . Porcentaje de palabras positivas y palabras negativas por condición experimental. Las barras representan errores estándar estimados.

He puesto una discusión de los aspectos científicos de este experimento en la sección de lectura aún más al final del capítulo, pero, por desgracia, este experimento es más conocido por generar un debate ético. Apenas unos días después de este artículo fue publicado en Proceedings de la Academia Nacional de Ciencias, hubo una enorme protesta de los investigadores y la prensa. Indignación en todo el documento se centró en dos puntos principales: 1) los participantes no proporcionan ningún consentimiento más allá de los términos de servicio de Facebook estándar para un tratamiento que algún pensamiento podría causar daño a los participantes y 2) el estudio no se había sometido a terceros ética opinión (Grimmelmann 2015) . Las cuestiones éticas planteadas en este debate causaron la revista para publicar rápidamente una "expresión de redacción de preocupación" rara sobre la ética y el proceso de revisión ética de la investigación (Verma 2014) . En los años siguientes, el experimento no ha dejado de ser una fuente de intenso debate y desacuerdo, y este desacuerdo puede haber tenido el efecto no deseado de la conducción en las sombras muchos otros experimentos que se están realizando por las empresas (Meyer 2014) .

Teniendo en cuenta estos antecedentes sobre el contagio emocional, ahora me gustaría demostrar que el 3 de R puede sugerir mejoras concretas y prácticas para los estudios reales (lo que podría pensar personalmente sobre la ética de este experimento en particular). La primera R es reemplazar: los investigadores deben tratar de sustituir los experimentos con técnicas menos invasivas y riesgosas, si es posible. Por ejemplo, en lugar de realizar un experimento, los investigadores podrían haber explotado un experimento natural. Como se describe en el capítulo 2, los experimentos naturales son situaciones en las que algo sucede en el mundo que se aproxima a la asignación aleatoria de los tratamientos (por ejemplo, un sorteo para decidir quién va a ser reclutado por el ejército). La ventaja de un experimento natural es que el investigador no tiene que ofrecer tratamientos; el medio ambiente lo hace por usted. En otras palabras, con un experimento natural, no habrían necesitado investigadores para manipular experimentalmente las personas Noticias externas.

De hecho, casi al mismo tiempo que el experimento contagio emocional, Coviello et al. (2014) estaba explotando lo que podría llamarse un experimento natural emocional contagio. Su enfoque, que utiliza una técnica llamada variables instrumentales, es un poco complicado si nunca lo has visto antes. Por lo tanto, con el fin de explicar por qué era necesario, vamos a construir a la altura. La primera idea que algunos investigadores podrían tener que estudiar el contagio emocional sería comparar sus mensajes en los días en que su Servicio de Noticias fue muy positiva a sus puestos en los días en que su Servicio de Noticias fue muy negativa. Este enfoque estaría bien si el objetivo era sólo para predecir el contenido emocional de sus mensajes, pero este enfoque es problemático si el objetivo es estudiar el efecto causal de su Servicio de Noticias en sus puestos. Para ver el problema con este diseño, considere Acción de Gracias. En los EE.UU., los mensajes positivos Spike y mensajes negativos caen en picado en Acción de Gracias. Por lo tanto, en Acción de Gracias, los investigadores pudieron ver que su Servicio de Noticias fue muy positiva y que publican cosas positivas también. Sin embargo, sus mensajes positivos podrían haber sido causados ​​por Acción de Gracias no por el contenido de su Servicio de Noticias. En lugar de ello, con el fin de estimar el efecto causal investigadores necesitan algo que cambia el contenido de su Servicio de Noticias sin cambiar directamente sus emociones. Afortunadamente, hay algo así sucede todo el tiempo: el tiempo.

Coviello y sus colegas encontraron que un día lluvioso en la ciudad de una persona, en promedio, disminuir la proporción de puestos que son positivos en alrededor de 1 punto porcentual y aumentar la proporción de puestos que son negativas alrededor de 1 punto porcentual. Entonces, Coviello y sus colegas explotan este hecho para estudiar el contagio emocional sin la necesidad de manipular experimentalmente de cualquiera de Noticias. En esencia lo que hicieron es una medida de cómo los mensajes se vieron afectados por el clima en las ciudades donde viven sus amigos. Para ver por qué esto tiene sentido, imagina que viven en la ciudad de Nueva York y tiene un amigo que vive en Seattle. Ahora imagina que un día empieza a llover en Seattle. Esta lluvia en Seattle no afectará directamente a su estado de ánimo, sino que hará que su Servicio de Noticias a ser menos positiva y más negativa debido a los mensajes de tus amigos. Por lo tanto, la lluvia en Seattle manipula al azar su Servicio de Noticias. Pasando esta intuición en un procedimiento estadístico fiable es complicado (y el enfoque exacto utilizado por Coviello y sus colegas es un no-estándar de bits) por lo que he puesto una discusión más detallada en la sección de lectura aún más. Lo más importante a recordar sobre Coviello y el enfoque de colega es que les permitió estudiar el contagio emocional sin la necesidad de realizar un experimento que podría perjudicar a los participantes, y puede darse el caso de que en muchos otros ajustes que se pueden sustituir los experimentos con otra técnicas.

En segundo lugar en las 3 Rs es Refinar: los investigadores deben tratar de perfeccionar sus tratamientos con el fin de causar el daño más pequeño posible. Por ejemplo, en lugar de bloquear contenido que era positivo o negativo, los investigadores podrían haber impulsado contenido que era positivo o negativo. Este diseño impulsar habría cambiado el contenido emocional de los participantes Noticias Externas, pero habría abordado uno de los críticos expresaron preocupación de que: los experimentos que podrían haber causado a los participantes a perder información importante en su Servicio de Noticias. Con el diseño utilizado por Kramer y colegas, es tan probable que sea bloqueada como uno que no es un mensaje que es importante. Sin embargo, con un diseño de impulsar, los mensajes que serían desplazados serían aquellas que son menos importantes.

Por último, la tercera R es Reducir: investigadores deberían tratar de reducir el número de participantes en su experimento, si es posible. En el pasado, esta reducción ocurrió de forma natural debido a que el costo variable de experimentos análogos era alta, lo que alentó la investigación para optimizar su diseño y análisis. Sin embargo, cuando hay cero los datos de costes variables, los investigadores no enfrentarse a una restricción del costo del tamaño de su experimento, y esto tiene el potencial de conducir a innecesariamente grandes experimentos.

Por ejemplo, Kramer y sus colegas podrían haber utilizado información de pre-tratamiento de sus participantes, tales como pre-tratamiento de contabilización comportamiento para hacer su análisis sea más eficiente. Más específicamente, en lugar de comparar la proporción de palabras positivas en las condiciones de tratamiento y de control, Kramer y sus colegas podrían haber comparado el cambio en la proporción de palabras positivas entre las condiciones; un enfoque a menudo se llama la diferencia en las diferencias y que está estrechamente relacionado con el diseño mixto que he descrito anteriormente en el capítulo (Figura 4.5). Es decir, por cada participante, los investigadores podrían haber creado una puntuación de cambio (comportamiento post-tratamiento - el comportamiento de pre-tratamiento) y se compararon las puntuaciones de cambio de los participantes en las condiciones de tratamiento y control. Este enfoque de diferencias en diferencias estadísticamente es más eficiente, lo que significa que los investigadores puedan lograr la misma confianza estadística usando muestras mucho más pequeñas. En otras palabras, por no tratar a los participantes como "widgets", los investigadores pueden a menudo obtener estimaciones más precisas.

Sin tener los datos en bruto, es difícil saber exactamente cuánto más eficiente un enfoque de diferencias en diferencias habría sido en este caso. Pero, Deng et al. (2013) reportaron que en tres experimentos en línea en el motor de búsqueda Bing que fueron capaces de reducir la varianza de las estimaciones de alrededor de un 50%, y se han reportado resultados similares para algunos experimentos en línea en Netflix (Xie and Aurisset 2016) . Esta reducción de la varianza del 50% significa que los investigadores contagio emocional podrían haber sido capaces de reducir su muestra a la mitad si se hubieran utilizado un poco diferentes métodos de análisis. En otras palabras, con un pequeño cambio en el análisis, 350.000 personas podrían haber sido salvadas participación en el experimento.

En este punto, puede que se pregunte por qué los investigadores deben importa si 350.000 personas estaban en el contagio emocional innecesariamente. Hay dos características particulares de contagio emocional que hacen que la preocupación por el excesivo tamaño adecuado, y estas características son compartidas por muchos experimentos de campo digitales: 1) existe incertidumbre acerca de si el experimento va a causar daño a al menos algunos de los participantes, y 2) la participación no fue voluntario. En experimentos con estas dos características, parece aconsejable mantener los experimentos de lo más pequeño posible.

En conclusión, las tres erres reemplazar, refinar y reducir el efecto de proporcionar principios que pueden ayudar a los investigadores a consolidar la ética en sus diseños experimentales. Por supuesto, cada uno de estos posibles cambios en el contagio emocional presenta ventajas y desventajas. Por ejemplo, los datos de los experimentos naturales no siempre es tan limpia como pruebas de experimentos aleatorios e impulsar podrían haber sido más logísticamente difícil de implementar que el bloque. Por lo tanto, el propósito de lo que sugiere que estos cambios no era de adivinar las decisiones de otros investigadores. Más bien, era para ilustrar cómo las tres R se podría aplicar en una situación realista.