D'autres commentaires

Cette section est conçue pour être utilisée comme référence, plutôt que d'être lu comme un récit.

  • Introduction (section 4.1)

Questions sur la causalité dans la recherche sociale sont souvent complexes et complexe. Pour une approche fondamentale à la causalité basée sur des graphes causaux, voir Pearl (2009) , et pour une approche fondamentale basée sur les résultats potentiels, voir Imbens and Rubin (2015) (et l'annexe technique du présent chapitre). Pour une comparaison entre ces deux approches, voir Morgan and Winship (2014) . Pour une approche formelle de la définition d' un facteur de confusion, voir VanderWeele and Shpitser (2013) .

Dans le chapitre, je créé ce qui semblait être une ligne nette entre notre capacité à faire des estimations causales à partir de données expérimentales et non-expérimentales. En réalité, je pense que la distinction est floue. Par exemple, tout le monde accepte que le tabagisme provoque le cancer, même si nous ne l'avons jamais fait une expérience contrôlée randomisée qui oblige les gens à fumer. Pour d' excellents traitements de longueur de livre sur des estimations de causalité à partir des données non expérimentales voir Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , et Dunning (2012) .

Les chapitres 1 et 2 de Freedman, Pisani, and Purves (2007) offrent une introduction claire dans les différences entre les expériences, des expériences contrôlées et randomisées expériences contrôlées.

Manzi (2012) offre une introduction fascinante et lisible dans les fondements philosophiques et statistiques des expériences contrôlées randomisées. Il fournit également des exemples intéressants dans le monde réel de la puissance de l'expérimentation dans les affaires.

  • Quelles sont les expériences? (Section 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) fournissent de bonnes introductions aux aspects statistiques de la conception et l' analyse expérimentale. En outre, il y a d' excellents traitements de l'utilisation d'expériences dans de nombreux domaines différents: économie (Bardsley et al. 2009) , (Willer and Walker 2007; Jackson and Cox 2013) (Aronson et al. 1989) (Morton and Williams 2010) (Bardsley et al. 2009) , la sociologie (Willer and Walker 2007; Jackson and Cox 2013) , la psychologie (Aronson et al. 1989) , (Aronson et al. 1989) , la science politique (Morton and Williams 2010) , et de la politique sociale (Glennerster and Takavarasha 2013) .

L'importance du recrutement des participants (par exemple, l'échantillonnage) est souvent sous-estimé dans la recherche expérimentale. Toutefois, si l'effet du traitement est hétérogène dans la population, alors l' échantillonnage est critique. Longford (1999) fait clairement ce point quand il plaide pour les chercheurs pensent à des expériences comme une enquête de la population avec un échantillonnage aléatoire.

  • Deux dimensions d'expériences: laboratoire-terrain et analogique-numérique (section 4.3)

La dichotomie que je présentais entre les expériences de laboratoire et sur le terrain est un peu simplifié. En fait, d' autres chercheurs ont proposé des typologies plus détaillées, en particulier celles qui séparent les diverses formes d'expériences sur le terrain (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . En outre, il existe deux autres types d'expériences réalisées par les scientifiques sociaux qui ne correspondent pas parfaitement dans le laboratoire et sur ​​le terrain dichotomie:. Expériences de l' enquête et des expériences sociales des expériences enquête sont des expériences utilisant l'infrastructure des enquêtes existantes et de comparer les réponses aux versions alternatives du mêmes questions (certaines expériences de l'enquête sont présentés dans le chapitre 3); pour en savoir plus sur les expériences de l' enquête , voir Mutz (2011) . expériences sociales sont des expériences où le traitement est une politique sociale qui ne peut être mis en œuvre par un gouvernement. expériences sociales sont étroitement liées à l'évaluation des programmes. Pour en savoir plus sur les expériences politiques, voir Orr (1998) , Glennerster and Takavarasha (2013) , et Heckman and Smith (1995) .

Un certain nombre de documents ont comparé en laboratoire et sur le terrain des expériences dans l'abstrait (Falk and Heckman 2009; Cialdini 2009) et en termes de résultats d'expériences spécifiques en science politique (Coppock and Green 2015) , l' économie (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) et de la psychologie (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) propose un modèle de recherche agréable pour comparer les résultats d'expériences de laboratoire et sur le terrain.

Les préoccupations concernant les participants à modifier leur comportement parce qu'ils savent qu'ils sont étroitement observés sont parfois appelés effets de la demande, et ils ont été étudiés en psychologie (Orne 1962) , (Zizzo 2009) (Orne 1962) et de l' économie (Zizzo 2009) , (Zizzo 2009) . Bien que la plupart du temps associé à des expériences de laboratoire, ces mêmes problèmes peuvent causer des problèmes pour les expériences sur le terrain aussi bien. En fait, les effets de la demande sont également parfois appelés effets Hawthorne, un terme qui dérive d'une expérience sur le terrain, en particulier les célèbres expériences d'éclairage qui ont commencé en 1924 à Hawthorne Works de la Western Electric Company (Adair 1984; Levitt and List 2011) . Les deux effets sur la demande et les effets Hawthorn sont étroitement liés à l'idée de la mesure réactive discuté au chapitre 2 (voir aussi Webb et al. (1966) ).

L'histoire des expériences sur le terrain a été décrit dans l' économie (Levitt and List 2009) , la science politique (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , la psychologie (Shadish 2002) , et les politiques publiques (Shadish and Cook 2009) . Un domaine de la science sociale où les expériences sur le terrain sont rapidement devenus de premier plan est le développement international. Pour un bilan positif de ce travail au sein de l' économie voir Banerjee and Duflo (2009) , et pour une évaluation critique voir Deaton (2010) . Pour un examen de ces travaux en science politique voir Humphreys and Weinstein (2009) . Enfin, les défis éthiques impliqués dans des expériences sur le terrain ont été explorées en science politique (Humphreys 2015; Desposato 2016b) et l' économie du développement (Baele 2013) .

Dans le chapitre, je suggère que l' information pré-traitement peut être utilisé pour améliorer la précision des effets de traitement estimés, mais il y a un débat sur ​​cette approche: Freedman (2008) , Lin (2013) , et Berk et al. (2013) ; voir Bloniarz et al. (2016) pour plus d' informations.

  • Aller au - delà des expériences simples (section 4.4)

J'ai choisi de se concentrer sur trois concepts: la validité, l'hétérogénéité des effets du traitement, et les mécanismes. Ces concepts ont des noms différents dans différents domaines. Par exemple, les psychologues ont tendance à aller au - delà des expériences simples en se concentrant sur ​​les médiateurs et les modérateurs (Baron and Kenny 1986) , (Baron and Kenny 1986) . L'idée des médiateurs est capturé par ce que j'appelle des mécanismes, et l'idée de modérateurs est capturé par ce que j'appelle la validité externe (par exemple, seraient les résultats de l'expérience différente s'il a été exécuté dans des situations différentes) et de l'hétérogénéité des effets du traitement ( par exemple, sont les effets plus importants pour certaines personnes que d'autres personnes).

L ' expérience de Schultz et al. (2007) montre comment les théories sociales peuvent être utilisées pour concevoir des interventions efficaces. Pour un argument plus général sur le rôle de la théorie à concevoir des interventions efficaces, voir Walton (2014) .

  • Validité (section 4.4.1)

Les concepts de validité interne et externe ont été introduits dans Campbell (1957) . Voir Shadish, Cook, and Campbell (2001) pour une histoire plus détaillée et une élaboration minutieuse des statistiques validité de la conclusion, la validité interne, la validité conceptuelle et la validité externe.

Pour un aperçu des questions liées à la validité statistique des expériences voir Gerber and Green (2012) (pour un point de vue des sciences sociales) et Imbens and Rubin (2015) (pour un point de vue statistique). Certaines questions de validité statistique qui se posent spécifiquement dans des expériences de terrain en ligne comprennent des questions telles que les méthodes de calcul efficaces pour créer des intervalles de confiance avec les données dépendantes (Bakshy and Eckles 2013) .

La validité interne peut être difficile à assurer dans des expériences de terrain complexes. Voir, par exemple, Gerber and Green (2000) , Imai (2005) , et Gerber and Green (2005) pour le débat sur ​​la mise en œuvre d'une expérience complexe sur le terrain au sujet du vote. Kohavi et al. (2012) et Kohavi et al. (2013) fournir une introduction dans les défis de la validité d' intervalle dans des expériences sur le terrain en ligne.

Une préoccupation majeure avec la validité interne est des problèmes avec randomisation. Une façon de détecter potentiellement des problèmes avec la randomisation est de comparer les groupes de traitement et de contrôle sur les traits observables. Ce genre de comparaison est appelé un contrôle de l' équilibre. Voir Hansen and Bowers (2008) pour une approche statistique pour équilibrer les chèques, et de voir Mutz and Pemantle (2015) pour des préoccupations au sujet des contrôles d'équilibre. Par exemple, en utilisant une balance vérifier Allcott (2011) a constaté qu'il existe des preuves que la randomisation n'a pas été correctement mis en œuvre dans trois des expériences dans certaines des expériences Opower (voir le tableau 2, les sites 2, 6 et 8). Pour d' autres approches, voir Imbens and Rubin (2015) , chapitre 21.

D'autres préoccupations majeures liées à la validité interne sont: 1) unilatérale de non-respect, où tout le monde dans le groupe de traitement a effectivement reçu le traitement, 2) deux faces non-respect, où tout le monde dans le groupe de traitement reçoit le traitement et certains personnes dans le groupe de contrôle reçoivent le traitement, 3) l'attrition, où les résultats ne sont pas mesurés pour certains participants, et 4) l'interférence, où le traitement se répand de personnes dans la condition de traitement pour les personnes dans la condition de contrôle. Voir Gerber and Green (2012) les chapitres 5, 6, 7, et 8 pour en savoir plus sur chacune de ces questions.

Pour en savoir plus sur la validité conceptuelle, voir Westen and Rosenthal (2003) , et plus sur la validité de construction dans les sources de données de grandes, Lazer (2015) et le chapitre 2 de ce livre.

Un aspect de la validité externe est le cadre où une intervention est testé. Allcott (2015) fournit un traitement attentif théorique et empirique du biais de sélection de site. Cette question est également abordée dans Deaton (2010) . En plus d'être reproduit dans de nombreux sites, l'intervention Accueil Rapport de l' énergie a également été étudié de façon indépendante par des groupes de recherche multiples (par exemple, Ayres, Raseman, and Shih (2013) ).

  • Hétérogénéité des effets de traitement (section 4.4.2)

Pour un excellent aperçu de l' hétérogénéité des effets du traitement dans des expériences sur le terrain, voir le chapitre 12 de Gerber and Green (2012) . Pour des introductions à l' hétérogénéité des effets du traitement dans les essais cliniques, voir Kent and Hayward (2007) , Longford (1999) , et Kravitz, Duan, and Braslow (2004) . Hétérogénéité des effets du traitement se concentrent généralement sur les différences en fonction des caractéristiques de pré-traitement. Si vous êtes intéressé par l' hétérogénéité en fonction des résultats post-traitement, puis plus complexes Approches sont nécessaires telles que la stratification principale (Frangakis and Rubin 2002) ; voir Page et al. (2015) pour un examen.

De nombreux chercheurs estiment l'hétérogénéité des effets du traitement par régression linéaire, mais les nouvelles méthodes reposent sur ​​l' apprentissage de la machine, par exemple Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , et Athey and Imbens (2016a) .

Il y a un certain scepticisme quant conclusions de l' hétérogénéité des effets en raison de multiples problèmes de comparaison et la «pêche». Il existe une variété d'approches statistiques qui peuvent aider à répondre aux préoccupations concernant la comparaison multiple (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Une approche de préoccupations au sujet de la «pêche» est pré-enregistrement, qui est de plus en plus courante en psychologie (Nosek and Lakens 2014) , la science politique (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) et de l' économie (Olken 2015) .

Dans l'étude de Costa and Kahn (2013) que la moitié environ des ménages dans l'expérience ont pu être liée à l'information démographique. Les lecteurs intéressés par les détails et les problèmes possibles avec cette analyse doivent se référer à l'article original.

  • Mécanismes (Section 4.4.3)

Les mécanismes sont extrêmement importants, mais ils se révèlent être très difficiles à étudier. La recherche sur les mécanismes étroitement liés à l'étude des médiateurs en psychologie (mais voir aussi VanderWeele (2009) pour une comparaison précise entre les deux idées). Approches statistiques aux mécanismes de trouver, tels que l'approche développée dans Baron and Kenny (1986) , sont très fréquentes. Malheureusement, il se trouve que ces procédures dépendent de certaines hypothèses fortes (Bullock, Green, and Ha 2010) et souffrent quand il y a plusieurs mécanismes, comme on pourrait s'y attendre dans de nombreuses situations (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) et Imai and Yamamoto (2013) offrent des méthodes statistiques améliorées. En outre, VanderWeele (2015) offre un traitement de longueur du livre avec un certain nombre de résultats importants, y compris une approche globale de l' analyse de sensibilité.

Une approche distincte se concentre sur des expériences qui tentent de manipuler le mécanisme directement (par exemple, donnant des marins de la vitamine C). Malheureusement, dans de nombreux milieux de sciences sociales, il y a souvent de multiples mécanismes et il est difficile de concevoir des traitements qui changent l'un sans changer les autres. Certaines approches expérimentales mécanismes altérant sont décrits dans Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , et Pirlott and MacKinnon (2016) .

Enfin, des mécanismes ont également une longue histoire dans la philosophie de la science telle que décrite par Hedström and Ylikoski (2010) .

  • En utilisant les environnements existants (Section 4.5.1.1)

Pour en savoir plus sur l'utilisation des études par correspondance et des études de vérification pour mesurer la discrimination voir Pager (2007) .

  • Construisez votre propre expérience (Section 4.5.1.2)

La façon la plus courante de recruter des participants à des expériences que vous créez est Amazon Mechanical Turk (MTurk). Parce que MTurk imite les aspects des expériences-paiement traditionnels laboratoire de personnes pour accomplir des tâches qu'ils ne feraient pas pour les chercheurs libres beaucoup ont déjà commencé à utiliser Turkers (les travailleurs sur MTurk) en tant que participants à des sujets humains expériences résultant de la collecte de données plus rapide et moins cher que le traditionnel expériences sur le campus laboratoire (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

La plus grande force d'expériences avec les participants recrutés dans MTurk sont logistique: ils permettent aux chercheurs de recruter les participants rapidement et selon les besoins. Considérant que les expériences de laboratoire peut prendre des semaines pour courir et expériences sur le terrain peut prendre des mois pour mettre en place, des expériences avec des participants recrutés dans MTurk peuvent être exécutés en jours. Par exemple, Berinsky, Huber, and Lenz (2012) ont été en mesure de recruter 400 sujets en une seule journée pour participer à une expérience de 8 minutes. En outre, ces participants peuvent être recrutés pour pratiquement tous les usages (y compris les enquêtes et la collaboration de masse, comme indiqué dans les chapitres 3 et 5). Cette facilité de recrutement signifie que les chercheurs peuvent exécuter des séquences d'expériences connexes en succession rapide.

Avant de recruter des participants de MTurk pour vos propres expériences, il y a quatre choses importantes à savoir. Tout d'abord, de nombreux chercheurs ont un scepticisme non spécifique des expériences impliquant Turkers. Parce que ce scepticisme est pas spécifique, il est difficile de contrer avec des preuves. Cependant, après plusieurs années d'études utilisant Turkers, nous pouvons maintenant conclure que ce scepticisme est pas particulièrement nécessaire. Il y a eu de nombreuses études comparant les données démographiques de Turkers à d'autres populations et de nombreuses études comparant les résultats des expériences avec Turkers aux résultats d'autres populations. Compte tenu de tout ce travail, je pense que la meilleure façon pour vous de penser à ce sujet est que Turkers sont un échantillon de commodité raisonnable, tout comme les étudiants , mais un peu plus diversifié (Berinsky, Huber, and Lenz 2012) . Ainsi, tout comme les étudiants sont une population raisonnable pour certains, mais pas toutes les recherches expérimentales, Turkers sont une population raisonnable pour certains, mais pas toutes les recherches. Si vous allez travailler avec Turkers, alors il est logique de lire un grand nombre de ces études comparatives et comprendre leurs nuances.

Deuxièmement, les chercheurs ont mis au point les meilleures pratiques pour améliorer la validité interne des expériences Turk, et vous devriez apprendre et suivre les meilleures pratiques (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Par exemple, les chercheurs qui utilisent Turkers sont encouragés à utiliser les agents de contrôle pour éliminer les participants inattentifs (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (mais voir aussi DJ Hauser and Schwarz (2015b) et DJ Hauser and Schwarz (2015a) ). Si vous ne supprimez pas les participants inattentifs, alors aucun effet du traitement peut être lavé par le bruit introduit des participants inattentifs, et en pratique, le nombre de participants inattentifs peut être considérable. Dans l'expérience de Huber et ses collègues (2012) environ 30% des participants n'a pas Crible d'attention de base. Un autre problème commun avec Turkers est participants non-naïfs (Chandler et al. 2015) .

En troisième lieu , par rapport à d'autres formes d'expériences numériques, des expériences peuvent MTurk pas à l' échelle; Stewart et al. (2015) estime que , à un moment donné il y a seulement environ 7.000 personnes sur MTurk.

Enfin, vous devriez savoir que MTurk est une communauté avec ses propres règles et normes (Mason and Suri 2012) . De la même façon que vous essayez de découvrir la culture d'un pays où vous alliez exécuter vos expériences, vous devriez essayer d' en savoir plus sur la culture et les normes de Turkers (Salehi et al. 2015) . Et, vous devriez savoir que les Turkers vont parler de votre expérience si vous faites quelque chose d' inapproprié ou contraire à l' éthique (Gray et al. 2016) .

MTurk est un moyen incroyablement pratique pour recruter des participants à vos expériences, si elles sont en laboratoire comme, comme Huber, Hill, and Lenz (2012) , ou plus de champ , comme, comme Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , et Mao et al. (2016) .

  • Construisez votre propre produit (Section 4.5.1.3)

Si vous envisagez d'essayer de créer votre propre produit, je vous recommande de lire les conseils offerts par le groupe MovieLens dans Harper and Konstan (2015) . Un aperçu de la clé de leur expérience est que pour chaque projet réussi il y a beaucoup, beaucoup d'échecs. Par exemple, le groupe MovieLens a lancé d' autres produits tels que les GopherAnswers qui étaient des échecs complets (Harper and Konstan 2015) . Un autre exemple d'un chercheur à défaut tout en essayant de construire un produit est la tentative de Edward Castronova pour construire un jeu en ligne appelé Arden. En dépit de 250.000 $ dans le financement, le projet a été un flop (Baker 2008) . Des projets comme GopherAnswers et Arden sont malheureusement beaucoup plus fréquent que des projets comme MovieLens. Enfin, quand je dis que je ne connais pas d'autres chercheurs qui ont construit avec succès des produits pour l'expérimentation répétée voici mes critères: 1) les participants utilisent le produit en raison de ce qu'il leur fournit (par exemple, ils ne sont pas payés et ils ne sont pas bénévoles aidant la science) et 2) le produit a été utilisé pendant plus d'une expérience distincte (c.-à-pas la même expérience plusieurs fois avec différents pools de participants). Si vous connaissez d'autres exemples, s'il vous plaît laissez-moi savoir.

  • Partenaire avec les puissants (Section 4.5.2)

J'ai entendu l'idée du Quadrant de Pasteur souvent discuté dans les entreprises de technologie, et il aide à organiser les efforts de recherche dans Google (Spector, Norvig, and Petrov 2012) .

Bond et l'étude de ses collègues (2012) tente également de détecter l'effet de ces traitements sur les amis de ceux qui les ont reçus. Grâce à la conception de l'expérience, ces retombées sont difficiles à détecter proprement; les lecteurs intéressés devraient voir Bond et al. (2012) pour une discussion plus approfondie. Cette expérience fait partie d'une longue tradition d'expériences en science politique sur les efforts pour encourager le vote (Green and Gerber 2015) . Ces expériences get-out-the-vote sont communs en partie parce qu'ils sont dans le quadrant de Pasteur. Autrement dit, il y a beaucoup de gens qui sont motivés pour augmenter le vote et le vote peut être un comportement intéressant de tester des théories plus générales sur le changement de comportement et l'influence sociale.

D' autres chercheurs ont fourni des conseils sur l' exécution d' expériences sur le terrain avec des organisations partenaires telles que les partis politiques, les ONG et les entreprises (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . D' autres ont offert des conseils sur la façon dont les partenariats avec les organisations peuvent avoir un impact des modèles de recherche (Green, Calfano, and Aronow 2014; King et al. 2007) , (Green, Calfano, and Aronow 2014; King et al. 2007) . Le partenariat peut également conduire à des questions éthiques (Humphreys 2015; Nickerson and Hyde 2016) .

  • Conseils de Design (section 4.6)

Si vous allez créer un plan d'analyse avant de lancer votre expérience, je vous suggère de commencer par la lecture de directives. Le CONSORT (Groupement des rapports standard des essais) des lignes directrices ont été élaborées en médecine (Schulz et al. 2010) , (Mayo-Wilson et al. 2013) (Schulz et al. 2010) et modifié pour la recherche sociale (Mayo-Wilson et al. 2013) . Un ensemble connexe de lignes directrices a été développé par les rédacteurs du Journal of Experimental Science politique (Gerber et al. 2014) (voir aussi Mutz and Pemantle (2015) et de Gerber et al. (2015) ). Enfin, les lignes directrices de rapports ont été développés en psychologie (Group 2008) , et aussi voir Simmons, Nelson, and Simonsohn (2011) .

Si vous créez un plan d'analyse, vous devriez considérer avant l'enregistrement parce que l'enregistrement préalable permettra d'accroître la confiance que les autres ont dans vos résultats. En outre, si vous travaillez avec un partenaire, elle limitera la capacité de votre partenaire pour changer l'analyse après avoir vu les résultats. La pré-inscription est de plus en plus courante en psychologie (Nosek and Lakens 2014) , la science politique (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , et l' économie (Olken 2015) .

Lors de la création de votre plan de pré-analyse , vous devez être conscient que certains chercheurs utilisent également la régression et les approches connexes pour améliorer la précision de l'effet du traitement estimé, et il y a un débat sur ​​cette approche: Freedman (2008) , Lin (2013) , et Berk et al. (2013) ; voir Bloniarz et al. (2016) pour plus d' informations.

Conseils de conception spécifiquement pour des expériences sur le terrain en ligne est également présenté dans Konstan and Chen (2007) et Chen and Konstan (2015) .

  • Créer zéro des données de coûts variables (section 4.6.1)

Pour en savoir plus sur les expériences de MusicLab, voir Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , et Salganik (2007) . Pour en savoir plus sur le gagnant rafle tous les marchés, voir Frank and Cook (1996) . Pour en savoir plus sur la chance démêlage et de compétences plus généralement, voir Mauboussin (2012) , Watts (2012) et Frank (2016) .

Il y a une autre approche permettant d'éliminer les paiements des participants que les chercheurs devraient utiliser avec prudence: la conscription. Dans de nombreuses expériences de terrain en ligne participants sont essentiellement rédigées en expériences et n'a jamais compensé. Des exemples de cette approche comprennent Restivo et de van de Rijt (2012) expérience sur des récompenses dans Wikipedia et Bond et de collègue (2012) expérience en vue d' encourager les gens à voter. Ces expériences ne sont pas vraiment à zéro coût variable, ils ont zéro coût variable pour les chercheurs. Même si le coût d'un grand nombre de ces expériences est extrêmement faible à chaque participant, les petits coûts imposés un nombre énorme de participants peut ajouter rapidement. Les chercheurs exécutant des expériences en ligne massives justifient souvent l'importance des petits effets estimés de traitement en disant que ces petits effets peuvent devenir importants lorsqu'il est appliqué à de nombreuses personnes. La même pensée exacte applique aux coûts que les chercheurs imposent aux participants. Si vos expériences provoque un million de personnes à perdre une minute, l'expérience est pas très nuisible à une personne en particulier, mais dans l'ensemble, il a perdu près de deux ans de temps.

Une autre approche de la création de zéro paiement de coût variable pour les participants est d'utiliser une loterie, une approche qui a également été utilisé dans la recherche de l' enquête (Halpern et al. 2011) , (Halpern et al. 2011) . Enfin, pour plus sur la conception de l' utilisateur-expériences agréables voir Toomim et al. (2011) .

  • Remplacer, Raffiner, et réduire (section 4.6.2)

Voici les définitions originales des trois R, de Russell and Burch (1959) :

"Remplacement signifie le remplacement de la conscience vivant animaux supérieurs de matériau insensible. Réduction des moyens de réduction du nombre d'animaux utilisés pour obtenir des informations d'une quantité et une précision donnée. Raffinement signifie toute diminution de l'incidence ou de la gravité des procédures inhumaines appliquées à ces animaux qui doivent encore être utilisés. "

Le trois R que je propose ne remplacent pas les principes éthiques décrits au chapitre 6. Au contraire, ils sont une version plus élaborée un de ces principes-bienfaisance spécifiquement pour la fixation d'expériences humaines.

Lorsque l'on considère la contagion émotionnelle, il y a trois questions non-éthiques pour garder à l'esprit lors de l'interprétation de cette expérience. Tout d'abord, on ne sait pas comment les détails réels de l'expérience se connecter à des revendications théoriques; en d'autres termes, il y a des questions sur la validité conceptuelle. On ne sait pas que les comptes de mots positifs et négatifs sont en fait un bon indicateur de l'état émotionnel des participants parce que 1) il est clair que les mots que les gens postent sont un bon indicateur de leurs émotions et 2) il est clair que la technique d'analyse de sentiment particulier que les chercheurs ont utilisé est en mesure de déduire de manière fiable les émotions (Beasley and Mason 2015; Panger 2016) . En d'autres termes, il pourrait y avoir une mauvaise mesure d'un signal polarisé. Deuxièmement, la conception et l'analyse de l'expérience nous dit rien qui a été le plus touché (il n'y a pas d'analyse de l'hétérogénéité des effets du traitement) et ce que le mécanisme pourrait être. Dans ce cas, les chercheurs ont eu beaucoup d'informations sur les participants, mais ils étaient essentiellement traités comme des widgets dans l'analyse. Troisièmement, la taille de l'effet dans cette expérience était très faible; la différence entre les conditions de traitement et de contrôle est d'environ 1 à 1000 mots. Dans leur article, Kramer et ses collègues font le cas où un effet de cette taille est importante parce que des centaines de millions de personnes accèdent à leur Nouvelles RSS chaque jour. En d'autres termes, ils soutiennent que même des effets qui sont petits pour chaque personne qu'ils sont grands dans l'ensemble. Même si vous étiez à accepter cet argument, il ne sait pas encore si un effet de cette taille est importante en ce qui concerne la question scientifique plus générale sur la contagion émotionnelle. Pour en savoir plus sur les situations où les petits effets sont importants voir Prentice and Miller (1992) .

En termes de la première R (remplacement), en comparant l'expérience émotionnelle Contagion (Kramer, Guillory, and Hancock 2014) et la contagion émotionnelle expérience naturelle (Coviello et al. 2014) offre quelques leçons générales sur les compromis impliqués avec le déplacement de expériences à des expériences naturelles (et d'autres approches comme correspondant à cette tentative de rapprocher les expériences dans les données non expérimentales, voir le chapitre 2). En plus des avantages éthiques, le passage d'expérimentation à des études non expérimentales permet également aux chercheurs d'étudier les traitements qu'ils sont logistiquement incapables de déployer. Ces avantages éthiques et logistiques ont un coût, cependant. Avec des expériences naturelles chercheurs ont moins de contrôle sur des choses comme le recrutement des participants, la randomisation et la nature du traitement. Par exemple, une limitation des précipitations en tant que traitement est qu'il augmente la positivité à la fois et diminue la négativité. Dans l'étude expérimentale, cependant, Kramer et ses collègues ont été en mesure d'ajuster la positivité et la négativité indépendamment.

L'approche particulière utilisée par Coviello et al. (2014) a été développé dans Coviello, Fowler, and Franceschetti (2014) . Pour une introduction aux variables instrumentales voir Angrist and Pischke (2009) (moins formel) ou Angrist, Imbens, and Rubin (1996) (plus formel). Pour une évaluation sceptique de variables instrumentales voir Deaton (2010) , et pour une introduction aux variables instrumentales avec des instruments faibles ( la pluie est un instrument faible), voir Murray (2006) .

Plus généralement, une bonne introduction aux expériences naturelles est Dunning (2012) , et Rosenbaum (2002) , Rosenbaum (2009) , et Shadish, Cook, and Campbell (2001) offrent de bonnes idées sur l' estimation des effets de causalité sans expériences.

En termes de la deuxième R (Refinement), il y a des arbitrages scientifiques et logistiques lors de l'examen de changer la conception de la contagion émotionnelle de bloquer les messages de stimuler les messages. Par exemple, il peut être le cas que la mise en œuvre technique du flux Nouvelles fait il est beaucoup plus facile de faire une expérience avec blocage des postes plutôt que d'une expérience avec le renforcement des postes (notez qu'une expérience avec blocage des postes pourrait être mis en œuvre en tant que couche sur haut du système Nouvelles d'alimentation sans aucun besoin de modifications du système sous-jacent). Scientifiquement, cependant, la théorie abordée par l'expérience n'a pas laissé entendre clairement un dessin sur l'autre.

Malheureusement, je ne suis pas au courant de la recherche substantielle préalable sur les mérites relatifs de blocage et le renforcement du contenu dans le flux Nouvelles. Aussi, je ne l'ai pas vu beaucoup de recherches sur le raffinage des traitements pour les rendre moins nocifs; une exception est Jones and Feamster (2015) , qui considère le cas de mesure de la censure sur Internet (un sujet que je parle au chapitre 6 par rapport à l'étude de Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

En termes de la troisième R (réduction), une bonne introduction à l' analyse de puissance traditionnelle est Cohen (1988) . covariables de pré-traitement peuvent être inclus dans la conception et l'étape d'analyse des expériences; Le chapitre 4 de Gerber and Green (2012) fournit une bonne introduction aux deux approches, et Casella (2008) fournit un traitement plus en profondeur. Les techniques qui utilisent ces informations de pré-traitement dans la randomisation sont généralement appelés soit bloqué modèles expérimentaux ou modèles expérimentaux stratifiés (la terminologie ne soit pas utilisé de manière cohérente à travers les communautés); ces techniques sont profondément liées aux techniques d'échantillonnage stratifié examinées au chapitre 3. Voir Higgins, Sävje, and Sekhon (2016) pour en savoir plus sur l' utilisation de ces dessins dans des expériences massives. Covariables pré-traitement peuvent également être inclus dans la phase d'analyse. McKenzie (2012) explore l'approche de la différence des différences à l' analyse des expériences de terrain plus en détail. Voir Carneiro, Lee, and Wilhelm (2016) pour en savoir plus sur les compromis entre les différentes approches pour augmenter la précision des estimations des effets du traitement. Enfin, au moment de décider d'essayer d'inclure covariables pré-traitement à la conception ou l'analyse étape (ou les deux), il y a quelques facteurs à considérer. Dans un contexte où les chercheurs veulent montrer qu'ils ne sont pas " la pêche" (Humphreys, Sierra, and Windt 2013) , en utilisant les covariables pré-traitement dans la phase de conception peut être utile (Higgins, Sävje, and Sekhon 2016) . Dans les situations où les participants arrivent séquentiellement, des expériences sur le terrain en particulier en ligne, en utilisant des informations pré-traitement dans la phase de conception peut être difficile sur le plan logistique, voir par exemple Xie and Aurisset (2016) .

Il convient d'ajouter un peu d'intuition sur les raisons de la différence des différences peut être beaucoup plus efficace que l'écart dans les moyens. Beaucoup de résultats en ligne ont très forte variance (voir , par exemple, Lewis and Rao (2015) et Lamb et al. (2015) ) et sont relativement stables dans le temps. Dans ce cas, le score de changement aura sensiblement plus petit écart, ce qui augmente la puissance du test statistique. L'une des raisons de cette approché est pas utilisé le plus souvent est que, avant l'ère numérique, il n'a pas été fréquent d'avoir des résultats pré-traitement. Une façon plus concrète de penser à ce sujet est d'imaginer une expérience pour mesurer si une routine d'exercice spécifique entraîne une perte de poids. Si vous faites une approche différence en moyens, votre estimation aura la variabilité qui vient de la variabilité des poids dans la population. Si vous faites une approche différence dans la différence, toutefois, que la variation naturelle du poids est alors retiré et vous pouvez plus facilement détecter une différence causée par le traitement.

Un moyen important de réduire le nombre de participants à votre expérience est de procéder à une analyse de puissance, qui Kramer et ses collègues auraient pu le faire sur la base des tailles d'effet observées à partir de l'expérience naturelle par Coviello et al. (2014) ou plus tôt la recherche non expérimentale par Kramer (2012) (en fait ce sont des activités à la fin de ce chapitre). Notez que cette utilisation de l'analyse de puissance est un peu différent de celui typique. Dans l'ère de l'analogique, les chercheurs ont généralement une analyse de puissance pour faire en sorte que leur étude n'a pas été trop petit (ie, sous-alimenté). Maintenant, cependant, les chercheurs devraient faire l'analyse du pouvoir de faire en sorte que leur étude ne soit pas trop grand (ie, sur-alimenté).

Enfin, je considère l'ajout d'un quatrième R: Réutiliser. Autrement dit, si les chercheurs se retrouvent avec des données expérimentales plus que nécessaire pour répondre à leurs questions de recherche original, ils devraient réutiliser les données à poser de nouvelles questions. Par exemple, imaginez que Kramer et ses collègues ont utilisé un estimateur de différence dans les différences et se sont retrouvés avec plus de données que nécessaire pour répondre à leurs questions de recherche. Plutôt que de ne pas utiliser les données dans toute la mesure, ils auraient pu étudier la taille de l'effet en fonction de pré-traitement expression émotionnelle. Tout comme Schultz et al. (2007) ont constaté que l'effet du traitement était différent pour les utilisateurs légers et lourds, peut - être les effets de l'alimentation Nouvelles étaient différentes pour les personnes qui ont déjà eu tendance à envoyer des messages heureux (ou tristes). Recibler pourrait conduire à la «pêche» (Humphreys, Sierra, and Windt 2013) et «p-piratage» (Simmons, Nelson, and Simonsohn 2011) , mais ceux - ci sont en grande partie adressable avec une combinaison de rapports honnêtes (Simmons, Nelson, and Simonsohn 2011) , pré-inscription (Humphreys, Sierra, and Windt 2013) , et les méthodes d'apprentissage de la machine qui tentent d'éviter de trop ajusté.