4.4.1 Validité

Validité se rapporte à quel point les résultats d'une expérience étayent une conclusion plus générale.

Aucune expérience n'est parfaite, et les chercheurs ont développé un vocabulaire étendu pour décrire les problèmes possibles. La validité se réfère à la mesure dans laquelle les résultats d'une expérience particulière permettent de tirer des conclusions plus générales. Les spécialistes des sciences sociales ont trouvé utile de diviser la validité en quatre types principaux: la validité de la conclusion statistique, la validité interne, la validité (Shadish, Cook, and Campbell 2001, chap. 2) et la validité externe (Shadish, Cook, and Campbell 2001, chap. 2) . La maîtrise de ces concepts vous fournira une liste de contrôle mentale pour critiquer et améliorer la conception et l'analyse d'une expérience, et vous aidera à communiquer avec d'autres chercheurs.

La validité de la conclusion statistique est centrée sur le fait que l'analyse statistique de l'expérience a été effectuée correctement. Dans le contexte de Schultz et al. (2007) , une telle question pourrait se centrer sur le fait de savoir s'ils ont correctement calculé leurs valeurs \(p\) . Les principes statistiques nécessaires pour concevoir et analyser des expériences dépassent la portée de ce livre, mais ils n'ont pas fondamentalement changé à l'ère numérique. Ce qui a changé, cependant, c'est que l'environnement des données dans les expériences numériques a créé de nouvelles opportunités telles que l'utilisation de méthodes d'apprentissage automatique pour estimer l'hétérogénéité des effets du traitement (Imai and Ratkovic 2013) .

La validité interne est centrée sur le fait que les procédures expérimentales ont été correctement effectuées. Revenons à l'expérience de Schultz et al. (2007) , les questions sur la validité interne pourraient être centrées sur la randomisation, la prestation du traitement et la mesure des résultats. Par exemple, vous pourriez craindre que les assistants de recherche n'aient pas lu les compteurs électriques de façon fiable. En fait, Schultz et ses collègues s'inquiétaient de ce problème, et ils ont fait lire deux fois un échantillon de compteurs; Heureusement, les résultats étaient essentiellement identiques. En général, l'expérience de Schultz et de ses collègues semble avoir une grande validité interne, mais ce n'est pas toujours le cas: les expériences complexes sur le terrain et en ligne rencontrent souvent des problèmes pour délivrer le bon traitement aux bonnes personnes et mesurer les résultats pour tous. Heureusement, l'ère numérique peut aider à réduire les inquiétudes concernant la validité interne, car il est maintenant plus facile de s'assurer que le traitement est administré à ceux qui sont censés le recevoir et de mesurer les résultats pour tous les participants.

Construire des centres de validité autour de la correspondance entre les données et les constructions théoriques. Comme nous l'avons vu au chapitre 2, les concepts sont des concepts abstraits que les spécialistes en sciences sociales raisonnent. Malheureusement, ces concepts abstraits n'ont pas toujours des définitions et des mesures claires. Revenons à Schultz et al. (2007) , l'affirmation selon laquelle les normes sociales injonctives peuvent réduire la consommation d'électricité oblige les chercheurs à concevoir un traitement qui manipulerait des «normes sociales injonctives» (p. Ex. Une émoticône) et mesurerait «l'utilisation de l'électricité». Dans des expériences analogues, de nombreux chercheurs ont conçu leurs propres traitements et mesuré leurs propres résultats. Cette approche garantit que, autant que possible, les expériences correspondent aux constructions abstraites étudiées. Dans les expériences numériques où les chercheurs s'associent à des entreprises ou à des gouvernements pour administrer des traitements et utiliser des systèmes de données en continu pour mesurer les résultats, la concordance entre l'expérience et les concepts théoriques peut être moins rigoureuse. Ainsi, je m'attends à ce que la validité de construction ait tendance à être plus importante dans les expériences numériques que dans les expériences analogiques.

Enfin, la validité externe consiste à savoir si les résultats de cette expérience peuvent être généralisés à d'autres situations. Revenons à Schultz et al. (2007) , on pourrait se demander si cette même idée - fournir aux gens des informations sur leur consommation d'énergie par rapport à leurs pairs et un signal de normes injonctives (par exemple, une émoticône) - réduirait la consommation d'énergie si elle était faite différemment dans un cadre différent. Pour la plupart des expériences bien conçues et bien menées, les préoccupations concernant la validité externe sont les plus difficiles à traiter. Dans le passé, ces débats sur la validité externe n'impliquaient souvent rien de plus qu'un groupe de personnes assis dans une pièce essayant d'imaginer ce qui se serait passé si les procédures avaient été faites d'une manière différente, ou dans un endroit différent, ou avec des participants différents . Heureusement, l'ère numérique permet aux chercheurs d'aller au-delà de ces spéculations sans données et d'évaluer empiriquement la validité externe.

Parce que les résultats de Schultz et al. (2007) étaient si excitants, une société nommée Opower s'est associée avec des services publics aux États-Unis pour déployer le traitement plus largement. Basé sur la conception de Schultz et al. (2007) , Opower a créé des rapports personnalisés sur l'énergie domestique qui comportaient deux modules principaux: un montrant la consommation d'électricité d'un ménage par rapport à ses voisins avec une émoticône et un autre fournissant des conseils pour réduire la consommation d'énergie (figure 4.6). Puis, en partenariat avec des chercheurs, Opower a mené des expériences contrôlées randomisées pour évaluer l'impact de ces rapports sur l'énergie domestique. Même si les traitements de ces expériences étaient généralement fournis physiquement - généralement par le biais d'un courrier postal à l'ancienne -, les résultats étaient mesurés à l'aide de dispositifs numériques dans le monde physique (p. De plus, plutôt que de collecter manuellement cette information avec des assistants de recherche visitant chaque maison, les expériences d'Opower ont toutes été réalisées en partenariat avec des compagnies d'électricité permettant aux chercheurs d'accéder aux lectures de puissance. Ainsi, ces expériences de terrain partiellement numériques ont été réalisées à grande échelle à un coût variable faible.

Figure 4.6: Les rapports sur l'énergie domestique comportaient un module de comparaison sociale et un module d'étapes d'action. Reproduit avec la permission d'Allcott (2011), figures 1 et 2.

Figure 4.6: Les rapports sur l'énergie domestique comportaient un module de comparaison sociale et un module d'étapes d'action. Reproduit avec la permission d' Allcott (2011) , figures 1 et 2.

Dans une première série d'expériences impliquant 600 000 ménages de 10 sites différents, Allcott (2011) constaté que le rapport sur l'énergie domestique a réduit la consommation d'électricité. En d'autres termes, les résultats de l'étude beaucoup plus grande, plus géographiquement diversifiée étaient qualitativement similaires aux résultats de Schultz et al. (2007) . De plus, dans des recherches subséquentes portant sur huit millions de ménages supplémentaires provenant de 101 sites différents, Allcott (2015) nouveau constaté que le rapport sur l'énergie résidentielle abaissait constamment la consommation d'électricité. Cet ensemble beaucoup plus large d'expériences a également révélé un nouveau modèle intéressant qui ne serait pas visible dans une seule expérience: la taille de l'effet a diminué dans les expériences ultérieures (figure 4.7). Allcott (2015) spéculé que cette baisse est survenue parce que, au fil du temps, le traitement a été appliqué à différents types de participants. Plus précisément, les services publics avec des clients plus axés sur l'environnement étaient plus susceptibles d'adopter le programme plus tôt, et leurs clients étaient plus sensibles au traitement. À mesure que les services publics ayant des clients moins soucieux de l'environnement adoptaient le programme, son efficacité semblait diminuer. Ainsi, tout comme la randomisation dans les expériences assure que le groupe de traitement et de contrôle sont similaires, la randomisation dans les sites de recherche garantit que les estimations peuvent être généralisées d'un groupe de participants à une population plus générale. Si les sites de recherche ne sont pas échantillonnés de manière aléatoire, la généralisation - même à partir d'une expérience parfaitement conçue et menée - peut être problématique.

Figure 4.7: Résultats de 111 expériences testant l'effet du rapport énergétique résidentiel sur la consommation d'électricité. Aux sites où le programme a été adopté plus tard, il a eu tendance à avoir des effets plus faibles. Allcott (2015) soutient qu'une source majeure de cette tendance est que les sites avec des clients plus axés sur l'environnement étaient plus susceptibles d'adopter le programme plus tôt. Adapté d'Allcott (2015), figure 3.

Figure 4.7: Résultats de 111 expériences testant l'effet du rapport énergétique résidentiel sur la consommation d'électricité. Aux sites où le programme a été adopté plus tard, il a eu tendance à avoir des effets plus faibles. Allcott (2015) soutient qu'une source majeure de cette tendance est que les sites avec des clients plus axés sur l'environnement étaient plus susceptibles d'adopter le programme plus tôt. Adapté d' Allcott (2015) , figure 3.

Ensemble, ces 111 expériences - 10 dans Allcott (2011) et 101 dans Allcott (2015) impliqué environ 8,5 millions de ménages de partout aux États-Unis. Ils montrent régulièrement que Home Energy Reports réduit la consommation d'électricité moyenne, un résultat qui soutient les conclusions originales de Schultz et ses collègues de 300 maisons en Californie. Au-delà de la simple reproduction de ces résultats initiaux, les expériences de suivi montrent également que la taille de l'effet varie en fonction du lieu. Cet ensemble d'expériences illustre également deux points plus généraux sur les expériences de terrain partiellement numériques. Premièrement, les chercheurs seront en mesure de répondre empiriquement aux préoccupations concernant la validité externe lorsque le coût de la réalisation des expériences est faible, et cela peut se produire si le résultat est déjà mesuré par un système de données toujours actif. Par conséquent, il suggère que les chercheurs devraient être à l'affût d'autres comportements intéressants et importants qui sont déjà enregistrés, puis concevoir des expériences en plus de cette infrastructure de mesure existante. Deuxièmement, cet ensemble d'expériences nous rappelle que les expériences de terrain numériques ne sont pas seulement en ligne; De plus en plus, je m'attends à ce qu'ils soient partout avec de nombreux résultats mesurés par des capteurs dans l'environnement bâti.

Les quatre types de validité - validité de conclusion statistique, validité interne, validité de construction et validité externe - fournissent une liste de contrôle mentale pour aider les chercheurs à évaluer si les résultats d'une expérience particulière appuient une conclusion plus générale. Par rapport aux expériences d'âge analogue, dans les expériences d'âge numérique, il devrait être plus facile d'aborder empiriquement la validité externe, et il devrait également être plus facile d'assurer la validité interne. D'un autre côté, les questions de validité conceptuelle seront probablement plus difficiles dans les expériences numériques, en particulier les expériences numériques sur le terrain qui impliquent des partenariats avec des entreprises.