4.4.1 Validez

Validez refírese a como os resultados dun experimento apoiar unha conclusión máis xeral.

Ningunha experiencia é perfecta, e os investigadores desenvolveron un extenso vocabulario para describir posibles problemas. Validez refírese á medida en que os resultados dunha experiencia en particular apoiar unha conclusión máis xeral. Os científicos sociais descubriron que é útil para dividir validez en catro tipos principais: validez conclusión estatística, validez interna, validez do construto e validez externa (Shadish, Cook, and Campbell 2001, Ch 2) . Dominar estes conceptos pode fornecer-lle unha lista de verificación mental para criticar e mellorar o proxecto e análise dun experimento, e vai axudar a comunicarse con outros investigadores.

Validez conclusión estatística xira en torno de saber se a análise estatística do experimento foi feito correctamente. No contexto Schultz et al. (2007) tal pregunta pode centrar-se computados os valores de p correctamente. A análise estatística está alén do alcance deste libro, pero podo dicir que os principios estatísticos necesarios para deseñar e analizar experiencias non cambiaron na era dixital. Con todo, o ambiente de datos en experimentos dixitais crea novas oportunidades de estatísticas (por exemplo, utilizando métodos de aprendizaxe de máquina para estimar a heteroxeneidade dos efectos do tratamento (Imai and Ratkovic 2013) ) e os novos retos computacionais (por exemplo, o bloqueo en experimentos masivas (Higgins, Sävje, and Sekhon 2016) ).

A validez interna xira en torno de saber se os procedementos experimentais foron realizados correctamente. Voltar para a experiencia de Schultz et al. (2007) , dúbidas sobre a validez interna podería xiran arredor da randomização, a entrega do tratamento, e medida de resultados. Por exemplo, pode estar preocupado que os asistentes de investigación non ler os medidores eléctricos de forma fiable. De feito, Schultz e os seus compañeiros estaban preocupados con este problema e eles tiveron unha mostra de metros ler dúas veces; Afortunadamente, os resultados foron esencialmente idénticos. En xeral, Schultz e experiencia dos compañeiros parece alta validez interna, pero iso non sempre é o caso; campo complexo e experiencias en liña moitas veces correr en problemas, en realidade, entregando o tratamento axeitado para a xente certas e medindo os resultados para todos. Afortunadamente, a era dixital pode axudar a reducir problemas sobre a validez interna, porque fai máis doado garantir que o tratamento se entrega como deseñado para aqueles que son presuntamente para recibila lo e medir os resultados para todos os participantes.

Construír centros de validez en todo o partido entre os datos e as construcións teóricas. Como discutido no Capítulo 2, as construcións son conceptos abstractos que os científicos sociais razoar sobre. Desafortunadamente, estes conceptos abstractos non sempre teñen definicións e medicións claras. Voltar á Schultz et al. (2007) , a alegación de que cautelar normas sociais poden reducir o uso de electricidade require investigadores para proxectar un tratamento que manipular "as normas sociais inibitórias" (por exemplo, un emoticon) e medir "o uso de electricidade". En experimentos analóxicos, moitos investigadores proxectaron seus propios tratamentos e mediron os seus propios resultados. Esta visión garante que, na medida do posible, as experiencias combinar as construcións resumo a ser estudado. En experiencias dixitais onde os investigadores asociacións con empresas ou gobernos para fornecer tratamentos e utilizar sempre-en sistemas de datos para medir os resultados, o xogo entre o experimento e as construcións teóricas pode ser menos axustado. Así, espero que a validez da construción tende a ser unha preocupación maior en experiencias dixitais que experimentos analóxicos.

Finalmente, validez externa xira en torno de saber se os resultados desta experiencia sería xeneralizar a outras situacións. Voltar á Schultz et al. (2007) , pódese preguntar, iso vai mesmo proporcionar idea ás persoas información sobre o seu consumo de enerxía en relación aos seus pares e un sinal de normas cautelares (por exemplo, un emoticon) o uso de enerxía -Reducir se se fixo dun xeito diferente en unha configuración diferente? Por máis ben deseñado e experiencias benestar run, as preocupacións sobre a validez externa son os máis difíciles de resolver. No pasado, estes debates sobre a validez externa eran frecuentemente só un grupo de persoas sentadas nunha sala tentando imaxinar o que acontecería se os procedementos foron realizados de forma diferente, ou nun lugar diferente, ou con persoas diferentes. Afortunadamente, a era dixital permite aos investigadores para ir máis alá esas especulacións libre de datos e avaliar a validez externa empiricamente.

Porque os resultados de Schultz et al. (2007) foron tan excitante, unha empresa chamada Opower colaboración con utilidades nos Estados Unidos para implantar o tratamento máis amplamente. Baseado no deseño de Schultz et al. (2007) , Opower creado personalizado Inicio Relatos de enerxía que tiveron dous módulos principais, un mostrando o uso da electricidade relativa da familia para os seus veciños cun emoticono e un que contén consellos para reducir o uso de enerxía (Figura 4.6). Entón, en colaboración con investigadores, Opower correu experimentos aleatorios controlados para avaliar o impacto das Inicio Relatos de enerxía. Aínda que os tratamentos nestes experimentos tipicamente entregados fisicamente xeralmente a través de idade caracol moda correo resultado foi medido utilizando dispositivos dixitais no mundo físico (por exemplo, Medidores de enerxía). No canto de recoller a man esta información con asistentes de investigación que visitan cada casa, os experimentos Opower foron todas feitas en colaboración con empresas de enerxía que permitan aos investigadores acceder as lecturas de enerxía. Así, estes experimentos de campo parcialmente dixitais foron executados en grande escala a baixo custo variable.

Figura 4.6: The Home Informes de enerxía en Allcott (2011) tivo un módulo de comparación social e un módulo Etapas da acción.

Figura 4.6: The Home Informes de enerxía en Allcott (2011) tivo un módulo de comparación social e un módulo Etapas da acción.

Nun primeiro conxunto de experimentos que inclúen 600.000 domicilios atendidos por 10 empresas de servizos públicos en todo o Estados Unidos, Allcott (2011) atopou o Informe de Enerxía Inicio reducido consumo de electricidade de 1,7%. Noutras palabras, os resultados do estudo moi grande, máis xeograficamente diversas foron cualitativamente similares aos resultados de Schultz et al. (2007) . Pero, o tamaño do efecto era menor: en Schultz et al. (2007) as familias na condición normas descritiva e injective (aquel co emoticon) reduciu o seu uso de electricidade en 5%. A razón exacta para esta diferenza é descoñecida, pero Allcott (2011) especulou que recibir un emoticon manuscrito como parte dun estudo patrocinado por unha universidade pode ter un efecto maior sobre o comportamento que recibir unha emoticona impreso como parte dun informe producido en masa a partir dun compañía de enerxía.

Ademais, en investigacións posteriores, Allcott (2015) informou nun adicional de 101 experimentos que inclúen un adicional de 8 millóns de fogares. Nestes próximos 101 experimentos do Informe de Enerxía Inicio continuou a levar a xente a reducir o seu consumo de electricidade, pero os efectos foron aínda menor. A razón precisa para esta diminución non é coñecida, pero Allcott (2015) se especula que a eficacia do informe parecía estar diminuíndo co tempo, porque está sendo aplicado a diferentes tipos de participantes. En concreto, os servizos públicos en áreas máis ambientalistas eran máis probables adoptar o programa anterior e os seus clientes eran máis sensibles ao tratamento. Como utilidades menores clientes ambientais adoptou o programa, a súa eficacia apareceu a declinar. Así, como randomização en experimentos asegura que o grupo de tratamento e control son semellantes, randomização en sitios de investigación asegura que as estimacións poden xeneralizados a partir dun grupo de participantes a unha poboación máis xeral (creo que volta ao capítulo 3, sobre mostraxe). Os sitios de procura non son miniaturizados aleatoriamente, logo xeneralización, mesmo a partir dun perfectamente deseñado e conducido experimento pode ser problemático.

Xuntos, estes 111 experimentos-10 en Allcott (2011) e 101 en Allcott (2015) -involved preto de 8,5 millóns de familias de todo o Estados Unidos. Mostran consistente que os informes Home Energy reducir o consumo medio de electricidade, un resultado que apoia as conclusións iniciais de Schultz e compañeiros de 300 vivendas en California. Ademais só replicar nestes resultados orixinais, as experiencias de seguimento mostran tamén que a magnitude do efecto varía coa localización. Este conxunto de experimentos tamén ilustra dous puntos xerais sobre experimentos de campo parcialmente dixitais. En primeiro lugar, os investigadores poderán empiricamente preocupacións sobre a validez externa cando o custo de funcionamento de experiencias é baixa, e isto pode ocorrer se o resultado xa está a ser medido por un sistema de always-on de datos. Por iso, el suxire que a investigación debería estar no look-out para outros comportamentos interesantes e importantes que xa están sendo gravadas, e despois proxectar experimentos na parte superior desta infraestrutura de medida existente. En segundo lugar, este conxunto de experiencias nos lembra que experimentos de campo dixitais non son só en liña; Cada vez que eu esperar que eles van estar en todas partes, con moitos resultados medidos polos sensores no ámbito construído.

Os catro tipos de validez conclusión validez estatística, validez interna, validez do construto, validez-fornecen externa unha lista de verificación mental para axudar aos investigadores a avaliar os resultados dun experimento en particular apoiar unha conclusión máis xeral. En comparación con experimentos era analóxica, en experimentos era dixital debe ser máis doado para resolver validez externa empíricamente e debe ser máis doado para garantir a validez interna. Por outra banda, os temas de validez do construto probablemente será máis reto en experimentos era dixital (a pesar de que non era o caso cos experimentos Opower).