tālāk komentārs

Šī sadaļa ir paredzēts izmantot kā atsauci, nevis jālasa kā stāstījumu.

  • Ievads (4.1)

Jautājumi par cēlonību sociālajā pētniecībā bieži vien ir sarežģīti un sarežģīts. Par fundamentālos pieeju cēlonību, pamatojoties uz cēloņsakarību grafikus, skatīt Pearl (2009) , un par fundamentālajiem pieeju, kuras pamatā iespējamiem rezultātiem, sk Imbens and Rubin (2015) (un tehniskajā papildinājumā šajā nodaļā). Par salīdzinājumu starp šīm divām pieejām, skatiet Morgan and Winship (2014) . Par formālu pieeju definējot confounder, skatiet VanderWeele and Shpitser (2013) .

Nodaļā, es izveidojis kas likās spilgti līnijas starp mūsu spēju veikt cēloņsakarības aplēses no eksperimentiem un nav eksperimentu datiem. Patiesībā, es domāju, ka atšķirība ir blurrier. Piemēram, visi piekrīt, ka smēķēšana izraisa vēzi, lai gan mēs esam nekad darīts nejaušās kontroles eksperimentu, kas liek cilvēkiem smēķēt. Par lielisku grāmatu garums ārstēšanu padarītu cēloņsakarības aplēses no non-eksperimentālajiem datiem sk Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , un Dunning (2012) .

1. un 2. nodaļā Freedman, Pisani, and Purves (2007) piedāvā skaidru ievešana atšķirībām eksperimentiem, laboratorijas eksperimentos, un randomizēti kontrolēti eksperimentus.

Manzi (2012) sniedz aizraujošu un saprotamu ievešana filozofiskajiem un statistikas pamatojumu par randomizētos kontrolētos eksperimentos. Tas nodrošina arī interesantas reālās pasaules piemērus varu eksperimentiem biznesā.

  • Kas ir eksperimenti? (4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) nodrošināt labas ievadiem uz statistikas aspektiem eksperimenta dizainu un analīzi. Turklāt ir lielisks ārstēšana izmantošanas eksperimentiem daudzās dažādās jomās: ekonomika (Bardsley et al. 2009) , Socioloģijā (Willer and Walker 2007; Jackson and Cox 2013) , psiholoģija (Aronson et al. 1989) , Politoloģija (Morton and Williams 2010) , un sociālā politika (Glennerster and Takavarasha 2013) .

Nozīmīgums dalībnieka darbā (piemēram, paraugu ņemšanas) bieži vien nepietiekami novērtēti eksperimentāliem pētījumiem. Tomēr, ja ietekme ārstēšanas ir neviendabīga iedzīvotāju vidū, tad paraugu ņemšana ir kritiska. Longford (1999) padara šo jautājumu skaidri, kad viņš aizstāv pētniekiem domāšana eksperimentiem kā iedzīvotāju aptauju ar nejaušs paraugus.

  • Divi izmēri eksperimentu: lab-lauka un analog-ciparu (4.3)

Dihotomiju, ka es iepazīstināju starp laboratorijas un lauka eksperimentos ir nedaudz vienkāršots. Patiesībā, citi pētnieki ir ierosinājusi detalizētākus tipoloģijas, jo īpaši tie, kas atdala dažāda veida lauka eksperimentiem (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Tālāk, ir divi citi veidi eksperimentiem sociālo zinātnieku veikto kas nav precīzi iekļaujas lab un lauku dihotomiju. Apsekojuma eksperimentiem un sociālajiem eksperimentiem Aptaujas eksperimenti ir eksperimenti, izmantojot infrastruktūru esošajos apsekojumos un salīdzināt atbildes uz alternatīvām versijām paši jautājumi (daži aptaujas eksperimenti ir sniegta 3. nodaļā); vairāk par apsekojuma eksperimentiem redzēt Mutz (2011) . Sociālie eksperimenti ir eksperimenti, kur ārstēšana ir daži sociālā politika, ko var īstenot tikai ar valdību. Sociālie eksperimenti ir cieši saistīta ar programmu novērtēšanu. Lai uzzinātu vairāk par politikas eksperimentiem, sk Orr (1998) , Glennerster and Takavarasha (2013) , un Heckman and Smith (1995) .

Vairāki dokumenti ir, salīdzinot laboratorijas un lauka izmēģinājumi abstrakti (Falk and Heckman 2009; Cialdini 2009) un attiecībā uz rezultātiem konkrētiem eksperimentiem politikas zinātnē (Coppock and Green 2015) , ekonomika (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) un psiholoģijā (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) piedāvā jauku pētniecības dizainu salīdzināt rezultātus no laboratorijas un lauka eksperimentiem.

Bažas par dalībniekiem maina savu uzvedību, jo viņi zina, viņi tiek rūpīgi novēroti dažreiz sauc ietekme uz pieprasījumu, un tie ir pētīta psiholoģijā (Orne 1962) un ekonomika (Zizzo 2009) . Lai gan galvenokārt saistīts ar lab eksperimentiem, šie paši jautājumi var radīt problēmas lauka izmēģinājumos, kā arī. Patiesībā, ietekme uz pieprasījumu ir arī dažkārt sauc Hawthorne efektus, terminu, kas izriet no lauka eksperimentā, jo īpaši slavens apgaismojuma eksperimentus, kas sākās 1924. gadā pie Hawthorne Works Rietumu Electric Company (Adair 1984; Levitt and List 2011) . Gan ietekme uz pieprasījumu un Hawthorn ietekme ir cieši saistīta ar ideju par reaktīvā mērījumu 2. nodaļā (skatīt arī Webb et al. (1966) ).

Lauka eksperimentu vēsture ir aprakstīta ekonomikā (Levitt and List 2009) , politikas zinātnes (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psiholoģija (Shadish 2002) , un sabiedriskās politikas (Shadish and Cook 2009) . Viens no sociālo zinātņu joma, kur lauka eksperimenti ātri kļuva ievērojama ir starptautisks attīstība. Par pozitīvu pārskatīt šo darbu laikā ekonomikā redzēt Banerjee and Duflo (2009) , un kritisku novērtējumu sk Deaton (2010) . Pārskatīt šo darbu politikas zinātnē redzēt Humphreys and Weinstein (2009) . Visbeidzot, ētikas problēmas, kas saistītas ar lauka eksperimentiem ir izpētīti politoloģijā (Humphreys 2015; Desposato 2016b) un attīstības ekonomikā (Baele 2013) .

Nodaļā, es ierosināju, ka pirmapstrāde informāciju var izmantot, lai uzlabotu precizitāti aplēsto ārstēšanas ietekmes, bet ir neliela diskusija par šo pieeju: Freedman (2008) , Lin (2013) , un Berk et al. (2013) ; redzēt Bloniarz et al. (2016) , lai iegūtu vairāk informācijas.

  • Moving aiz vienkāršiem eksperimentiem (4.4)

Es esmu izvēlējies pievērsties trim jēdzieniem: derīgumu, neviendabīgumu ārstēšanas efektu, un mehānismiem. Šie jēdzieni ir dažādi nosaukumi dažādās jomās. Piemēram, psihologi mēdz iet tālāk vienkāršiem eksperimentiem, koncentrējoties uz starpnieku un moderatoriem (Baron and Kenny 1986) . Ideja par starpnieku uztver to, ko es saucu par mehānismiem, un doma par moderatoriem ir notverti ar to, ko es saucu par ārējo derīgumu (piemēram, būtu eksperimenta rezultāti būtu citāda, ja tas tika palaists dažādās situācijās) un neviendabīgums ārstēšanas efektu ( piemēram, ir sekas lielāki par dažiem cilvēkiem, nekā citiem cilvēkiem).

Par eksperiments Schultz et al. (2007) rāda, kā sociālās teorijas var izmantot, lai izstrādātu efektīvu iejaukšanos. Lai iegūtu vispārēju argumentu par lomu teorijas, izstrādājot efektīvu iejaukšanos, sk Walton (2014) .

  • Derīgums (4.4.1 nodaļa)

Par iekšējās un ārējās derīguma koncepcijas pirmo reizi tika ieviesti Campbell (1957) . Skatīt Shadish, Cook, and Campbell (2001) , lai iegūtu detalizētāku vēsturi un rūpīgu izstrādi statistikas noslēgšanas spēkā esamību, iekšējā spēkā esamību, būvēt derīgumu un ārējo spēku.

Pārskatu par jautājumiem, kas saistīti ar statistikas noslēgšanas spēkā esamību eksperimentos redzēt Gerber and Green (2012) (par sociālās zinātnes viedokļa) un Imbens and Rubin (2015) (par statistikas viedokļa). Daži statistikas secinājums derīguma jautājumi, kas rodas īpaši tiešsaistes lauka eksperimentos ietver tādus jautājumus kā skaitļošanas efektīvām metodēm, lai radītu ticamības intervālu ar atkarīgo datu (Bakshy and Eckles 2013) .

Iekšējais derīgums var būt grūti nodrošināt sarežģītās lauka eksperimentos. Skatīt, piemēram, Gerber and Green (2000) , Imai (2005) , un Gerber and Green (2005) par debatēm par īstenošanas sarežģītu lauka eksperimentā par balsošanu. Kohavi et al. (2012) un Kohavi et al. (2013) sniedz ievadīšanu izaicinājumiem intervāls derīgumu tiešsaistes lauka eksperimentos.

Viens no lielas bažas ar iekšējo spēkā esamību, ir problēmas ar randomizācijas. Viens veids, kā iespējams konstatēt problēmas ar randomizācijas ir salīdzināt apstrādes un kontroles grupās par novērojamiem īpašības. Šis salīdzināšanas veids sauc līdzsvars pārbaude. Skatīt Hansen and Bowers (2008) par statistisko pieeju līdzsvarot pārbaudes, un redzēt Mutz and Pemantle (2015) par bažām par bilances pārbaudes. Piemēram, izmantojot līdzsvaru paskatieties Allcott (2011) konstatēts, ka pastāv daži pierādījumi, ka randomizācijas netika pareizi īstenoti trīs no eksperimentiem dažās OPower eksperimentu (skatīt 2. tabulu; vietām 2, 6, un 8). Par citām pieejām, skatiet Imbens and Rubin (2015) , 21. nodaļu.

Citas lielākās bažas saistībā ar iekšējo spēkā esamību, ir: 1) vienpusīgs neatbilstību, ja ne visi ārstēšanas grupā faktiski saņemto ārstēšanu, 2) divi novietotās neatbilstību, ja ne visi ārstēšanas grupā saņem ārstēšanu un daži cilvēki kontroles grupā saņem ārstēšanu, 3) nepieņemto, kur rezultāti netiek mērīts dažiem dalībniekiem, un 4) iejaukšanās, kur ārstēšana noplūdes pāri no cilvēku ārstniecības stāvoklī cilvēkiem kontroles stāvoklī. Skatīt Gerber and Green (2012) , 6, 7 8 vairāk par katru no šiem jautājumiem nodaļu 5 un.

Lai uzzinātu vairāk par būvēt derīguma skatīt Westen and Rosenthal (2003) , un vairāk par būvēt derīgumu lieliem datu avotiem, Lazer (2015) , un šīs grāmatas 2. nodaļā.

Viens no ārējā derīguma aspekts ir iestatījums, kad iejaukšanās ir pārbaudīts. Allcott (2015) nodrošina rūpīgu teorētisko un empīrisko attieksmi pret vietā atlases neobjektivitāti. Šis jautājums ir apspriests arī Deaton (2010) . Papildus replicēt daudz vietas, tad Home Energy ziņojumā iejaukšanās ir arī neatkarīgi izpētījis vairākām pētniecības grupas (piemēram, Ayres, Raseman, and Shih (2013) ).

  • Neviendabīgums ārstēšanas efektu (4.4.2 nodaļa)

Par lielisku pārskatu par neviendabīgumu ārstēšanas efektu lauka eksperimentos, skatīt 12. nodaļu Gerber and Green (2012) . Par ievads neviendabīgumu ārstēšanas efektu medicīnas pētījumos, skatiet Kent and Hayward (2007) , Longford (1999) , un Kravitz, Duan, and Braslow (2004) . Neviendabīgums ārstēšanas ietekmes parasti koncentrējas uz atšķirībām, pamatojoties uz pirmsapstrādes īpašībām. Ja Jums ir interese par neviendabīgumu, pamatojoties uz pēc ārstēšanas rezultātu, tad sarežģītākas approachs ir nepieciešami, piemēram, galvenais stratifikācijas (Frangakis and Rubin 2002) ; sk Page et al. (2015) pārskatīšanu.

Daudzi pētnieki lēš neviendabīgumu ārstēšanas efektu, izmantojot lineāro regresiju, bet jaunāku metodes paļaujas uz mašīnu mācībām, piemēram, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , un Athey and Imbens (2016a) .

Ir daži skepsi par konstatēto neviendabīgumu ietekmes dēļ vairākas salīdzināšanas problēmām un "zveja." Ir dažādi statistikas pieejas, kas var palīdzēt risināt bažas par vairāku Salīdzinājumam (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Viena pieeja bažas par "zvejas" ir provizoriskā reģistrācija, kas kļūst aizvien populārāka psiholoģijā (Nosek and Lakens 2014) , politoloģija (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) un ekonomika (Olken 2015) .

Pētījumā ar Costa and Kahn (2013) tikai apmēram puse mājsaimniecību eksperimentā varēja būt saistīts ar demogrāfisko informāciju. Lasītāji interesē detaļas un iespējamās problēmas ar šo analīzi, būtu jāatsaucas uz sākotnējo papīra.

  • Mehānismi (4.4.3 nodaļa)

Mehānismi ir neticami svarīgi, bet viņi izrādīties ļoti grūti pētīt. Pētījumi par mehānismiem, kas cieši saistīts ar pētījumu par starpnieku psiholoģijā (bet skatīt arī VanderWeele (2009) par precīzu salīdzinājumu starp divām idejām). Statistikas pieejas Rast mehānismus, piemēram, pieeju izstrādātajai Baron and Kenny (1986) , ir diezgan bieži. Diemžēl izrādās, ka šīs procedūras ir atkarīgas no dažiem spēcīgiem pieņēmumiem (Bullock, Green, and Ha 2010) un cieš, ja ir vairāki mehānismi, kā varētu gaidīt, daudzās situācijās (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) un Imai and Yamamoto (2013) piedāvā dažas uzlabotas statistikas metodes. Turklāt VanderWeele (2015) piedāvā grāmatu garuma ārstēšana ar vairākiem nozīmīgiem rezultātiem, tostarp visaptverošu pieeju jutīguma analīze.

Atsevišķa pieeja ir vērsta uz eksperimentiem, kas mēģina manipulēt mehānismu tieši (piemēram, dodot jūrnieki C vitamīns). Diemžēl daudzās sociālo zinātņu uzstādījumi bieži ir vairāki mehānismi, un ir grūti izstrādāt ārstēšanu, kas maina vienu nemainot citus. Daži pieejas eksperimentāli mainot mehānismi ir aprakstīti Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , un Pirlott and MacKinnon (2016) .

Visbeidzot, mehānismi ir arī sena vēsture filozofijas zinātņu, kā aprakstīts Hedström and Ylikoski (2010) .

  • Izmantojot esošo vidi (4.5.1.1 sadaļa)

Lai uzzinātu vairāk par to izmantošanu neklātienes studiju un revīzijas pētījumus, lai novērtētu diskrimināciju redzēt Pager (2007) .

  • Izveidojiet savu eksperimentu (4.5.1.2 sadaļa)

Visizplatītākais veids, kā pieņemt darbā dalībniekus eksperimentiem, ka jūs veidot ir Amazon Mechanical Turk (MTurk). Jo MTurk atdarina aspekti tradicionālo laboratorijas eksperimentu apmaksātajās cilvēki, lai izpildītu uzdevumus, kas viņi nevarētu darīt par brīvu, daudzi pētnieki jau ir sākuši izmantot Turkers (darba ņēmējus MTurk), kā dalībnieki cilvēkus uz eksperimentiem rezultātā ātrāku un lētāku datu vākšanu nekā tradicionālie on-Campus laboratorijas eksperimenti (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Lielākais spēks eksperimentiem ar dalībniekiem pieņemti darbā no MTurk ir loģistikas: tie ļauj pētniekiem darbā dalībniekus ātri un kā nepieciešams. Tā kā laboratorijas eksperimentus var veikt nedēļas, lai palaistu un lauka eksperimentus var veikt mēnešus, lai set-up, eksperimenti ar dalībniekiem pieņemti darbā no MTurk var palaist dienās. Piemēram, Berinsky, Huber, and Lenz (2012) varēja pieņemt darbā 400 priekšmetus vienā dienā piedalīties 8 minūšu eksperimentu. Turklāt šie dalībnieki var pieņemt darbā praktiski jebkādiem mērķiem (tostarp aptaujās un masu sadarbībā, kā aprakstīts 3. nodaļā un 5). Šī vieglumu darbā nozīmē, ka pētnieki var palaist sekvences saistītiem eksperimentiem ātrā secībā.

Pirms darbā dalībniekus no MTurk savām eksperimentiem, ir četras svarīgas lietas, kas jāzina. Pirmkārt, daudzi pētnieki ir nespecifiska skepsi eksperimentu, iesaistot Turkers. Tā kā šis skepticisms nav īpaša, tas ir grūti, lai cīnītos ar pierādījumiem. Tomēr pēc vairāku gadu pētījumiem, kuros izmanto Turkers, mēs tagad var secināt, ka šī skepse nav īpaši nepieciešama. Ir bijuši daudzi pētījumi salīdzināti demogrāfijas Turkers citām populācijām un daudzi pētījumi, salīdzinot rezultātus eksperimentu ar Turkers uz rezultātiem citām iedzīvotāju grupām. Ņemot vērā visu šo darbu, es domāju, ka labākais veids, kā jūs domājat par to, ka Turkers ir saprātīgs ērtības paraugs, līdzīgi studentiem, bet nedaudz vairāk daudzveidīgu (Berinsky, Huber, and Lenz 2012) . Tādējādi, tāpat kā studenti ir saprātīgs iedzīvotāju dažiem, bet ne visiem eksperimentālā izpēte, Turkers ir saprātīgs iedzīvotāju dažiem, bet ne visi pētījumi. Ja esat nolēmis strādāt ar Turkers, tad tas ir jēga lasīt daudzus no šiem salīdzinošo pētījumu un izprast savas nianses.

Otrkārt, zinātnieki ir izstrādājuši labāko praksi, lai uzlabotu iekšējo derīgumu Turk eksperimentiem, un jums vajadzētu uzzināt un sekot šiem labāko praksi (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Piemēram, pētnieki izmanto Turkers tiek mudinātas izmantot sieti noņemt neuzmanīgs dalībniekiem (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (bet skatīt arī DJ Hauser and Schwarz (2015b) un DJ Hauser and Schwarz (2015a) ). Ja jums nav izņemt neuzmanīgs dalībniekiem, tad kāds efekts būtu iespējams izskalo troksnis ieviesta no neuzmanīgs dalībniekiem, un praksē skaits neuzmanīgs dalībnieku var būt ievērojama. Eksperimentā ar Huber un kolēģu (2012) aptuveni 30% no dalībniekiem neizdevās pamata uzmanību sieti. Vēl viena problēma kopīga ar Turkers ir ne-naivi dalībnieki (Chandler et al. 2015) .

Treškārt, salīdzinot ar dažiem citiem veidiem digitālās eksperimentiem, MTurk eksperimenti nevar mērogā; Stewart et al. (2015) lēš, ka jebkurā brīdī ir tikai aptuveni 7000 cilvēki uz MTurk.

Visbeidzot, jums vajadzētu zināt, ka MTurk ir kopiena ar saviem noteikumiem un normām (Mason and Suri 2012) . Tādā pašā veidā, ka jūs varētu mēģināt uzzināt par kultūru valstī, kur jūs gatavojas palaist jūsu eksperimentus, jums vajadzētu mēģināt uzzināt vairāk par kultūru un normām Turkers (Salehi et al. 2015) . Un, jums vajadzētu zināt, ka Turkers būs runāt par savu eksperimentu, ja jūs kaut ko darīt nepiemērotu vai neētisku (Gray et al. 2016) .

MTurk ir neticami ērts veids, kā pieņemt darbā dalībniekiem jūsu eksperimentiem, vai tie ir lab līdzīgi, piemēram, Huber, Hill, and Lenz (2012) , vai lielāku lauka līdzīgi, piemēram, Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , un Mao et al. (2016) .

  • Izveidojiet savu produktu (4.5.1.3 sadaļa)

Ja jūs domājat, cenšoties izveidot savu produktu, es iesaku jums izlasīt padomu, ko MovieLens grupas piedāvāto Harper and Konstan (2015) . Galvenais ieskats no savas pieredzes, ka par katru veiksmīgu projektu ir daudz, daudz nepilnības. Piemēram, MovieLens grupa uzsāka citus produktus, piemēram, GopherAnswers kas bija pilnīgi neveiksmes (Harper and Konstan 2015) . Vēl viens pētnieks bankrotējošās mēģinot veidot produktu piemērs ir Edvarda Castronova mēģinājums izveidot tiešsaistes spēli sauc Arden. Neskatoties 250,000 $ finansējuma, projekts bija kritiens (Baker 2008) . Projekti, piemēram, GopherAnswers un Arden diemžēl daudz biežāk nekā projektiem, piemēram, MovieLens. Beidzot, kad es teicu, ka es nezināju par jebkuru citu zinātnieku, kas bija veiksmīgi būvētas produktu atkārtotu eksperimentu šeit ir mana kritēriji: 1) dalībnieki izmanto produktu, jo to, ko tā sniedz tiem (piemēram, tie nav jāmaksā, un tie nav brīvprātīgie palīdz zinātni) un 2) produkts ir izmantota vairāk nekā viena atsevišķa eksperimentā (ti, nav tas pats eksperiments vairākas reizes ar dažādiem dalībnieku baseini). Ja jūs zināt citu piemēru, lūdzu, ļaujiet man zināt.

  • Partneris ar spēcīgu (4.5.2 nodaļa)

Esmu dzirdējis ideju Pastēra s Quadrant apspriesta bieži pie tehnoloģiju uzņēmumi, un tas palīdz organizēt pētniecības pasākumus Google (Spector, Norvig, and Petrov 2012) .

Bond un kolēģu pētījums (2012) arī mēģina atklāt ietekmi minētajiem režīmiem par draugiem, kuri tos saņēmuši. Sakarā ar dizaina eksperimenta, šie pārnese ir grūti atklāt tīri; ieinteresētajām lasītājiem vajadzētu redzēt Bond et al. (2012) par rūpīgāku diskusiju. Šis eksperiments ir daļa no senas tradīcijas eksperimentu politikas zinātnē par centieniem mudināt balsošanas (Green and Gerber 2015) . Šie get-out-the-balsojums eksperimenti ir bieži daļēji tāpēc, ka tie ir Pasteur s Quadrant. Tas ir, ir daudzi cilvēki, kuri ir motivēti palielināt balsošanu un balsošanu var būt interesants uzvedība, lai pārbaudītu vispārīgāki teorijas par uzvedības pārmaiņām un sociālo ietekmi.

Citi zinātnieki sniedza padomus par darbu lauka eksperimentus ar partneru organizācijām, piemēram, politisko partiju, NVO un uzņēmējiem (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Citi piedāvāja padomu par to, kā partnerattiecības ar organizācijām var ietekmēt pētniecības dizainu (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnerība var izraisīt arī ētikas jautājumiem (Humphreys 2015; Nickerson and Hyde 2016) .

  • Dizaina konsultācijas (4.6)

Ja esat nolēmis izveidot analīzes plāns, pirms rādīt savu eksperimentu, es iesaku jums sākt, nolasot ziņošanas vadlīnijas. CONSORT (konsolidētā Standard ziņošana izmēģinājuma) pamatnostādnes tika izstrādātas medicīnā (Schulz et al. 2010) un modificēta sociālo pētījumu (Mayo-Wilson et al. 2013) . Saistītais pamatnostādņu kopumu ir izstrādājusi redaktoriem Journal Eksperimentālās Politikas zinātnes (Gerber et al. 2014) (skatīt arī Mutz and Pemantle (2015) un Gerber et al. (2015) ). Visbeidzot, ziņošanas vadlīnijas ir izstrādātas psiholoģijā (Group 2008) , un redzēt arī Simmons, Nelson, and Simonsohn (2011) .

Ja jums izveidot analīzes plāns jums vajadzētu apsvērt iepriekš reģistrējot, jo iepriekšējas reģistrācijas palielinās pārliecību, ka citi ir jūsu rezultātus. Turklāt, ja jūs strādājat ar partneri, tas ierobežo jūsu partnera spēju mainīt analīzi pēc redzēt rezultātus. Iepriekšēja reģistrācija kļūst aizvien populārāka psiholoģijā (Nosek and Lakens 2014) , politoloģija (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , un ekonomika (Olken 2015) .

Veidojot savu iepriekš analīzes plāns jums ir jāapzinās, ka daži pētnieki arī izmantot regresijas un ar to saistītās pieejas, lai uzlabotu precizitāti paredzamo ārstēšanas efektu, un ir dažas diskusijas par šo pieeju: Freedman (2008) , Lin (2013) , un Berk et al. (2013) ; redzēt Bloniarz et al. (2016) , lai iegūtu vairāk informācijas.

Dizains padoms īpaši tiešsaistes lauka eksperimentiem ir arī sniegta Konstan and Chen (2007) un Chen and Konstan (2015) .

  • Izveidot nulle mainīgo izmaksu datus (4.6.1 nodaļa)

Lai uzzinātu vairāk par MusicLab eksperimentiem, skat Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , un Salganik (2007) . Lai uzzinātu vairāk par uzvarētājs pārņemšanu visos tirgos, sk Frank and Cook (1996) . Lai uzzinātu vairāk par untangling luck un prasmju kopumā skat Mauboussin (2012) , Watts (2012) , un Frank (2016) .

Ir cita pieeja novēršot dalībniekam maksājumus, kas paredz pētniekus izmantot piesardzīgi: karaklausību. Daudzos tiešsaistes lauka eksperimentu dalībnieki būtībā iesaukts eksperimentiem un nekad kompensēti. Piemēri Šīs pieejas ietver Restivo un van de Rijt s (2012) eksperimentu par atlīdzības Vikipēdijā un Bond un kolēģa (2012) eksperimenta mudinātu cilvēkus balsot. Šie eksperimenti nav īsti ir nulle mainīgās izmaksas, tās ir nulle mainīgs izmaksas pētniekiem. Pat ja izmaksas daudzi no šiem eksperimentiem ir ļoti mazs, lai katram dalībniekam, mazas izmaksas uzlikts milzīgs dalībnieku skaits var pievienot līdz pat ātri. Pētnieki darbojas masveida tiešsaistes eksperimenti bieži attaisno nozīmīgumu mazo aplēstajiem ārstēšanas ietekmes, sakot, ka šie mazie sekas var kļūt svarīgi, ja piemēro daudziem cilvēkiem. Precīzs pats domāšana attiecas uz izmaksām, kas pētnieki uzliek dalībniekiem. Ja jūsu eksperimenti izraisa vienu miljonu cilvēku uz atkritumiem vienu minūti, tad eksperiments nav ļoti kaitīgs kādu konkrētu personu, bet kopumā tas ir izšķērdēta gandrīz divu gadu laikā.

Cita pieeja radītu nulles mainīgo izmaksu samaksu dalībniekiem ir izmantot loterijā, pieeja, kas arī ir izmantots apsekojuma pētniecības (Halpern et al. 2011) . Visbeidzot, vairāk par projektēšana patīkams lietotājam pieredze redzēt Toomim et al. (2011) .

  • Nomainiet, mērķtiecīgi, un samazināt (4.6.2)

Šeit ir oriģināls definīcijas trīs R, no Russell and Burch (1959) :

"Rezerves nozīmē aizstāšanu apzinās dzīvo augstākām dzīvnieku nejutīgs materiālu. Samazināšana nozīmē samazinājumu skaitu, ko izmanto, lai iegūtu informāciju par konkrētu summu un precizitāti dzīvniekiem. Trokšņu nozīmē jebkuru samazinājumu biežuma vai smaguma necilvēcīgo procedūrām, ko piemēro tiem dzīvniekiem, kuriem vēl ir jāizmanto. "

Trīs R, ka es ierosinu neignorē ētiskos principus, kas aprakstīti 6. nodaļā Drīzāk, tie ir labāk izstrādāts versija viens no tiem principiem, Labdarība-īpaši, lai noteiktu cilvēka eksperimentu.

Apsverot Emocionālais izplatīšanos, ir trīs nav ētiski jautājumi, kas jāpatur prātā, interpretējot šo eksperimentu. Pirmkārt, nav skaidrs, kā faktiskie informācija par eksperimenta savienojumu teorētiskajiem prasībām; citiem vārdiem sakot, ir jautājumi par būvēt derīgumu. Tas nav skaidrs, ka pozitīvās un negatīvās vārdu skaits ir tiešām labs rādītājs emocionālo stāvokli dalībnieku, jo 1) nav skaidrs, ka vārdi, ka cilvēki norīko ir labs rādītājs savas emocijas un 2) nav skaidrs, ka konkrētais noskaņojuma analīzes tehnoloģija, ka pētnieki izmanto spēj droši secināt, emocijas (Beasley and Mason 2015; Panger 2016) . Citiem vārdiem sakot, tur varētu būt slikts pasākums neobjektīvas signālu. Otrkārt, dizains un analīze eksperimenta stāsta mums neko par to, kas bija visvairāk ietekmēja (ti, nav analīze neviendabīgumu ārstēšanas efektu) un kāda varētu būt mehānisms. Šajā gadījumā, zinātnieki bija daudz informācijas par dalībniekiem, bet tie tika būtībā uzskatīti par widgets analīzē. Treškārt, efekts lielums šajā eksperimentā bija ļoti mazs; starpība starp ārstēšanas un kontroles apstākļos ir aptuveni 1 no 1000 vārdiem. Savā papīra, Kramer un kolēģi dara lietu, ka efekts šāda izmēra ir svarīga, jo simtiem miljonu cilvēku piekļūt viņu News Feed katru dienu. Citiem vārdiem sakot, viņi apgalvo, ka pat efektus, kas ir mazs, katru personu, tie ir liels kopsummā. Pat ja jums bija pieņemt šo argumentu, tas joprojām nav skaidrs, vai sekas šāda izmēra ir svarīga saistībā ar vispārīgāku zinātnisko jautājumu par emocionālo sabrukumu. Vairāk par situācijām, kur mazie ietekme ir svarīgi redzēt Prentice and Miller (1992) .

Runājot par pirmo R (aizstāšana), salīdzinot emocionālā izplatīšanos eksperimentu (Kramer, Guillory, and Hancock 2014) un emocionālo izplatīšanās dabas eksperimentu (Coviello et al. 2014) Piedāvā dažas vispārīgas atziņas par kompromisiem saistīti ar pāreju no eksperimenti fiziskām eksperimentiem (un citas pieejas, piemēram, saskaņojot šo mēģinājums tuvināt eksperimentus nav eksperimentāliem datiem, skatīt 2. nodaļu). Papildus ētiskajiem ieguvumiem, pārejot no izmēģinājumos, kas nav eksperimentāliem pētījumiem arī ļauj zinātniekiem pētīt ārstēšanu, kas tie ir loģistikas nespēj izmantot. Šie ētikas un loģistikas priekšrocības nāk pie izmaksām, tomēr. Ar dabas eksperimentiem zinātnieki ir mazāka kontrole pār lietām, piemēram, darbā dalībnieku, randomizācijas, un ārstēšanas veidu. Piemēram, viens ierobežojums nokrišņu kā attieksme ir, ka tas gan palielina pozitīvismu un samazinās negatīvisma. Eksperimentālajā pētījumā, tomēr, Kramer un kolēģi bija iespēja pielāgot pozitivitāti un negatīvisma patstāvīgi.

Īpaši pieeja izmantota Coviello et al. (2014) tika tālāk izstrādāts Coviello, Fowler, and Franceschetti (2014) . Par ievadu instrumentālo mainīgo redzēt Angrist and Pischke (2009) (mazāk formālas) vai Angrist, Imbens, and Rubin (1996) (vairāk formāls). Par skeptisku vērtējumu instrumentālo mainīgo redzēt Deaton (2010) , kā arī ievadu instrumentālo mainīgo ar vāju instrumentiem (lietus ir vājš instruments), sk Murray (2006) .

Vispārīgāk, labs ievads dabas eksperimentiem ir Dunning (2012) , un Rosenbaum (2002) , Rosenbaum (2009) , un Shadish, Cook, and Campbell (2001) piedāvā labas idejas par novērtētu cēloņsakarību efektus bez eksperimentiem.

Runājot par otro R (pilnveidošana), ir zinātniski un loģistikas kompromisi, apsverot mainot dizainu Emocionālais saindēšanas bloķēšanos amatus, lai palielinātu amatus. Piemēram, tas var būt gadījums, ka tehniskā īstenošana News Feed padara to ir ievērojami vieglāk darīt eksperimentu ar bloķējošo posts nevis eksperimentā ar palielinātu amatu (ņemiet vērā, ka eksperiments ar bloķējošo amatus varētu ieviest kā slānis uz augšdaļa News Feed sistēmai bez nepieciešamības izmaiņas no pamata sistēmas). Zinātniski tomēr teorija risināti eksperiments nebija skaidri liecina vienu dizainu pār otru.

Diemžēl, es neesmu informēts par būtisku iepriekšēju izpēti par relatīvos ieguvumus bloķēšanu un palielināt saturu News Feed. Arī es neesmu redzējis daudz pētījumu par rafinēšanas ārstēšanu, lai padarītu tos mazāk kaitīgi; Vienīgais izņēmums ir Jones and Feamster (2015) , kas uzskata, ka, mērot interneta cenzūru (tēmu es apspriestu 6. nodaļā attiecībās ar Encore pētījumā (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

Runājot par trešo R (Reduction), labs ievads tradicionālās ietekmes analīzei ir Cohen (1988) . Pre-apstrādes ietekmējošie faktori var iekļaut projektēšanas stadijā un analīzes posmā eksperimentiem; 4. nodaļas Gerber and Green (2012) sniedz labu ieskatu abu pieeju, un Casella (2008) nodrošina padziļinātu ārstēšanu. Metodes, kas izmanto šo pirms ārstēšanas informāciju randomizācijas parasti sauc vai nu bloķēta eksperimentālās dizainu vai slāņveida eksperimentālās dizainu (terminoloģija netiek izmantota konsekventi kopienām); šīs metodes ir dziļi saistīta ar stratificētās izlases metodēm apspriesti 3. nodaļā Skatīt Higgins, Sävje, and Sekhon (2016) par vairāk, izmantojot šos dizainu masveida eksperimentos. Pre-apstrādes ietekmējošie faktori var iekļaut analīzes posmā. McKenzie (2012) pēta atšķirība-in-atšķirības pieeju analizējot lauka eksperimentus detalizētāk. Skatīt Carneiro, Lee, and Wilhelm (2016) vairāk uz kompromisiem starp dažādām pieejām, lai palielinātu precizitāti, aplēsēm ārstēšanas ietekmes. Visbeidzot, lemjot, vai mēģināt iekļaut pirms ārstēšanas kovariantes pie projektēšanas vai analīzes posmā (vai abi), ir daži faktori, kas jāapsver. Apstākļos, kur pētnieki vēlas pierādīt, ka tie nav "zveja" (Humphreys, Sierra, and Windt 2013) , izmantojot iepriekš ārstēšanas kovariantes projektēšanas stadijā var būt noderīga (Higgins, Sävje, and Sekhon 2016) . Situācijās, kad dalībnieki ierodas secīgi, jo īpaši tiešsaistes lauka eksperimenti, izmantojot iepriekš ārstēšanas informāciju projektēšanas stadijā var būt grūti loģistikas, skatīt, piemēram, Xie and Aurisset (2016) .

Ir vērts pievienojot mazliet intuīciju par to, kāpēc atšķirība-in-atšķirības var būt tik daudz efektīvāka nekā atšķirību-in-līdzekļiem. Daudzi tiešsaistes rezultāti ir ļoti augsts dispersijas (skatīt, piemēram, Lewis and Rao (2015) un Lamb et al. (2015) ) un ir salīdzinoši stabils laika gaitā. Šajā gadījumā izmaiņas rezultāts būs ievērojami mazākas dispersijas, palielinot jaudu statistikas testu. Viens no iemesliem tas tuvojās netiek izmantots biežāk ir tā, ka pirms digitālajā laikmetā tas nav bieži, ir iepriekš ārstēšanas rezultātus. Vairāk konkrēts veids, kā domāt par to ir iedomāties eksperimentu, lai noteiktu, vai konkrēta izmantot rutīnas izraisa svara zudumu. Ja jūs atšķirība-in-līdzekļu pieeju, jūsu aplēses būs mainīgumu, kas nāk no mainīguma svaru populācijā. Ja jūs atšķirība-in-starpību pieeju, tomēr, ka dabīgi atšķirības svaru tiek noņemta, un jūs varat vieglāk atklāt atšķirību, ko izraisa ārstēšana.

Viens svarīgs veids, kā samazināt skaitu dalībnieku eksperimenta ir veikt jaudas analīzi, kas Kramer un kolēģi varēja izdarīt, pamatojoties uz zāļu iedarbība novērota no dabiskā eksperimenta ar Coviello et al. (2014) vai agrāk nav eksperimentāls pētījums Kramer (2012) (faktiski tie ir pasākumi beigās šajā nodaļā). Ievērojiet, ka šī izmantošana ietekmes analīzei ir mazliet savādāka nekā tipisks. Analogajā laikmetā, pētnieki parasti darīja jaudas analīzi, lai pārliecinātos, ka viņu pētījums nav pārāk mazs (ti, zem-powered). Tagad, tomēr, zinātnieki jādara jaudas analīzi, lai pārliecinātos, ka viņu pētījums nav pārāk liels (ti, vairāk nekā-powered).

Visbeidzot, es uzskatīju pievienojot ceturto R: pārprofilējot. Tas ir, ja pētniekiem atrast sevi ar vairāk eksperimentāliem datiem, nekā nepieciešams, lai risinātu savu sākotnējo pētījuma jautājumu, tie būtu pārprofilējot dati uzdot jaunus jautājumus. Piemēram, iedomājieties, ka Kramer un kolēģi bija izmantojis atšķirība-in-atšķirības aprēķinātājs un atrada sevi ar vairāk datu nekā vajadzīgs, lai risinātu savu pētniecības jautājumu. Nevis nav izmantojot datus pilnā apjomā, tie varētu būt pētīja lielumu spēkā funkcijai, pirmapstrāde emocionālās izpausmes. Tāpat kā Schultz et al. (2007) atklāja, ka efekts būtu bijis atšķirīgs vieglo un smago lietotājiem, varbūt sekas News Feed bija dažādi cilvēki, kuri jau tiecās post laimīgs (vai VAD) ziņas. Repurposing varētu novest pie "zvejas" (Humphreys, Sierra, and Windt 2013) un "p-hakeru" (Simmons, Nelson, and Simonsohn 2011) , bet tie ir lielā mērā Adrešu ar godīgu ziņošanas kombināciju (Simmons, Nelson, and Simonsohn 2011) , pre-reģistrācija (Humphreys, Sierra, and Windt 2013) , un mašīna mācīšanās metodes, kas mēģina izvairīties no pārāk pieguļošs.