dalje коментар

Овај део је дизајниран да се користи као референца, а не да се чита као наратив.

  • Увод (Одељак 4.1)

Питања о узрочности у друштвена истраживања су често сложени и сложен. За темељни приступ узрочности на основу узрочних графикона, погледајте Pearl (2009) , а за темељни приступ заснован на потенцијалним резултатима, види Imbens and Rubin (2015) (и техничку додатак у овом поглављу). За поређење између ова два приступа, погледајте Morgan and Winship (2014) . За формалног приступа дефинисању цонфоундер, погледајте VanderWeele and Shpitser (2013) .

У поглављу, направио сам оно што се чинило као сјајна линије између наше способности да би узрочно-последичне процене из експерименталних и не-експеримента података. У стварности, мислим да је разлика замућенија. На пример, сви прихватају да пушење изазива рак, иако никада нисмо урадили случајном контролисану експеримент који приморава људе да пуши. Због изузетних третмана дужине књига о прављењу процене узрочно-последичне од не-експерименталних података види Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , и Dunning (2012) .

Поглавља 1 и 2 од Freedman, Pisani, and Purves (2007) јасан увод у разликама између експеримената, контролисаним експериментима, и насумично контролисане експерименте.

Manzi (2012) фасцинантан и читљив увод у филозофским и статистичких подупирачима рандомизираних контролисаних експеримената. Она такође пружа занимљиве реалног света примере моћи експериментисања у пословању.

  • Шта су експерименти? (Поглавље 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) обезбедити добре увод у статистичким аспектима експерименталног дизајна и анализе. Даље, постоје одлични третмани употребе експеримената у многим различитим областима: економија (Bardsley et al. 2009) , Социологија (Willer and Walker 2007; Jackson and Cox 2013) , психологија (Aronson et al. 1989) , Политичке науке (Morton and Williams 2010) , и социјална политика (Glennerster and Takavarasha 2013) .

Значај учесника запошљавања (нпр, узорковање) је често недовољно цењен у експерименталним истраживањима. Међутим, уколико је ефекат лечења је хетерогена у популацији, затим узорковање је критично. Longford (1999) ову тачку јасно када је залаже за истраживаче размишља о експериментима као истраживање становништва са насумичном узорковања.

  • Две димензије експеримената: лабораторија-поље и аналогно-дигитални (Одељак 4.3)

Дихотомија да сам представио између лабораторијских и теренских експеримената је мало поједностављена. У ствари, други истраживачи су предложили детаљније типологије, нарочито оне које раздвајају различите облике пољским огледима (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Даље, постоје две друге врсте експеримената изведених социолози који се не уклапају у лабораторији и на терену дихотомијом:. Експеримената истраживања и социјалних експеримената експерименти истраживања су експерименти користе инфраструктуру постојећих истраживања и упоредити одговоре на алтернативне верзије иста питања (неки експерименти истраживања су дати у poglavlju 3); За више информација о експериментима анкете види Mutz (2011) . Социал експерименти су експерименти у којима је лечење неких социјалне политике које се могу спровести само од стране владе. Социјалних експеримената су блиско повезани са евалуација програма. За више информација о експериментима политике, види Orr (1998) , Glennerster and Takavarasha (2013) , и Heckman and Smith (1995) .

Један број радова су у односу лабораторијских и теренских експеримената у садржају (Falk and Heckman 2009; Cialdini 2009) у погледу исхода конкретних експеримената у политичке науке (Coppock and Green 2015) , економија (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) психологија (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) леп дизајн истраживања за поређење резултата са лабораторијским и пољским експеримената.

Забринутост због учесника мењају своје понашање, јер знају да се пажљиво посматра се понекад називају ефекти тражње, а они су студирали у психологији (Orne 1962) економија (Zizzo 2009) . Иако је углавном повезан са лабораторијским експериментима, ова иста питања може да проузрокује проблеме на терену експериментима као добро. У ствари, ефекти потражње се такође понекад назива Хавтхорне ефекте, термин који потиче из поља експеримента, посебно познате осветљењем експерименте који су започели у 1924. на Хавтхорне Воркс западне Елецтриц Цомпани (Adair 1984; Levitt and List 2011) . Оба ефекти тражње и Хавтхорн ефекти су у тесној вези са идејом реактивне мере се разматрају у Поглављу 2 (видети такође Webb et al. (1966) ).

Историја пољским огледима је описан у економији (Levitt and List 2009) , политичке науке (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , психологија (Shadish 2002) , и јавна политика (Shadish and Cook 2009) . Једна област друштвених наука, где пољским огледима је убрзо постао истакнут је међународни развој. За позитивну рецензију тог рада у оквиру економије види Banerjee and Duflo (2009) , и за критичку процену видети Deaton (2010) . За преглед овог рада политичке науке видети Humphreys and Weinstein (2009) . Коначно, етички изазови који су укључени са пољским огледима су истражени у политичке науке (Humphreys 2015; Desposato 2016b) и развој економије (Baele 2013) .

У поглављу, предложио сам да се информације пре могу да се користе за побољшање прецизности процењених ефеката лечења, али постоји дебата о овом приступу: Freedman (2008) , Lin (2013) , и Berk et al. (2013) ; види Bloniarz et al. (2016) више информација.

  • Премештање иза једноставних експеримената (члан 4.4)

Ја сам одлучио да се фокусира на три концепта: важења, хетерогеност ефеката лечења, и механизмима. Ови концепти имају различите називе у различитим областима. На пример, психолози настоје да превазиђу једноставне експерименте с фокусом на посредника и модератора (Baron and Kenny 1986) . Идеја медијатора је заробљен од стране оно што ја називам механизме, а идеја модератора је заробљен од стране оно што ја називам спољни ваљаност (нпр ће резултати експеримента била другачија да је рад у различитим ситуацијама) и хетерогеност ефеката третмана ( нпр, су ефекти већи за неке људе од других људи).

Експеримент Schultz et al. (2007) како социјални теорије могу користити за дизајнирање ефикасних интервенције. За више опште расправе о улози теорије у изради делотворне интервенције, види Walton (2014) .

  • Ваљаност (Одељак 4.4.1)

Концепти интерне и екстерне валидности су први пут уведени у Campbell (1957) . Погледајте Shadish, Cook, and Campbell (2001) детаљније историје и пажљивог израду статистичких важења закључка, унутрашње ваљаности, изградњу ваљаност и спољну ваљаности.

За преглед питања везаних за статистичке валидности закључак у експериментима видети Gerber and Green (2012) (за перспективу у друштвеним наукама) и Imbens and Rubin (2015) (за статистичку перспективе). Нека питања статистичке важности закључак да се јављају посебно у онлине пољским огледима обухватају питања као што су рачунски ефикасне методе за стварање интервали поверења са зависним података (Bakshy and Eckles 2013) .

Интерна валидност може бити тешко обезбедити у сложеним експериментима на терену. Погледајте, на пример, Gerber and Green (2000) , Imai (2005) , и Gerber and Green (2005) расправу о примени комплексне пољском огледу о гласању. Kohavi et al. (2012) Kohavi et al. (2013) увид у изазове интервалу важења у мрежи пољским огледима.

Један од главних брига са унутрашњим важности је проблем са насумичног. Један од начина да се потенцијално откривање проблема са насумичног је да се упореде лечења и контроле групе на видљивим карактеристикама. Ова врста поређења се зове Провера стања. Погледајте Hansen and Bowers (2008) статистички приступ да се успостави равнотежа провере, и види Mutz and Pemantle (2015) забринутост о стању провере. На пример, користећи равнотежу провери Allcott (2011) утврдио да постоје докази да је случајним није правилно спроведен у три од експеримената у неким експериментима ОПовер (види табелу 2; сајтове 2, 6, и 8). За друге приступе, погледајте Imbens and Rubin (2015) , поглавље 21.

Други главни проблеми везани за унутрашњу важности су: 1) једнострано непоштовање, где нису сви у групи за третман заправо добили терапију, 2) двије стране непоштовање, где нису сви у групи за третман прима третман и неке људи у контролној групи добију третман, 3) осипање, где су резултати не мере за неке учеснике, и 4) сметње, где је лечење прелива од људи у стању третман за људе у контролном стању. Погледајте Gerber and Green (2012) 5, 6, 7, 8 и више на свако од ових питања.

За више информација о валидности конструкта, види Westen and Rosenthal (2003) , а за више информација о валидности конструкта у великим изворима података, Lazer (2015) поглављу 2 овог књиге.

Један аспект спољашњег важности је поставка у којој се тестира интервенција. Allcott (2015) пажљиво теоријски и емпиријски третман избора сајт пристрасности. Ово питање је такође говори у Deaton (2010) . Поред тога што је поновљен у многим сајтовима, кућни Енергетски извештај интервенција је такође самостално проучавали више истраживачких група (нпр, Ayres, Raseman, and Shih (2013) ).

  • Хетерогеност ефеката третмана (Одељак 4.4.2)

За добар преглед хетерогеност ефеката лечења у пољским огледима, види поглавље 12 о Gerber and Green (2012) . За уводе хетерогеност ефеката лечења у медицинским испитивањима, погледајте Kent and Hayward (2007) , Longford (1999) , и Kravitz, Duan, and Braslow (2004) . Хетерогеност ефеката третмана углавном се фокусирају на разликама на основу карактеристика пре третмана. Уколико сте заинтересовани за хетерогеност на основу резултата након третмана, па су потребни сложенији аппроацхс као што су главни стратификацијској (Frangakis and Rubin 2002) ; види Page et al. (2015) преглед.

Многи истраживачи процењују хетерогеност ефеката лечења помоћу линеарне регресије, али новији методи се ослањају на машинског учења, на пример Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , и Athey and Imbens (2016a) .

Постоји одређена доза скептицизма у вези са налазима хетерогеност ефеката због проблема вишеструких поређења и "пецање". Постоји низ статистичких приступа који могу да помогну адреса забринутост због вишеструког поређења (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Један приступ забринутости "риболов" је пре регистрација, који постаје све чешћи у психологији (Nosek and Lakens 2014) , политичке науке (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) и економија (Olken 2015) .

У студији Costa and Kahn (2013) око половине домаћинстава у експерименту су могли да буду повезани са демографских информација. Читаоце заинтересоване за детаље и могућих проблема са овом анализом треба да се односе на оригиналног рада.

  • Механизми (Одељак 4.4.3)

Механизми су невероватно важне, али се испостави да је веома тешко да уче. Истраживање о механизмима у тесној вези са студијом посредника у психологији (али види VanderWeele (2009) прецизно поређење између две идеје). Статистички приступ проналажењу механизама, као што је приступ развијен у Baron and Kenny (1986) , прилично уобичајена. На жалост, испоставља се да су ови поступци зависити неким јаким претпоставкама (Bullock, Green, and Ha 2010) пате када постоји више механизама, као што се може очекивати у многим ситуацијама (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) Imai and Yamamoto (2013) неке побољшане статистичке методе. Даље, VanderWeele (2015) третман књига дужине са великим бројем значајних резултата, укључујући и свеобухватног приступа анализи осјетљивости.

Посебан приступ се фокусира на експериментима који покушавају да манипулишу механизам директно (на пример, давање морнари витамин Ц). На жалост, у многим срединама друштвених наука тамо често су више механизми и тешко је дизајнирати третмана који мењају један без промене друге. Неки приступи експериментално мијењају механизми су описани у Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , и Pirlott and MacKinnon (2016) .

Коначно, механизми такође имају дугу историју у филозофији науке као што је описано од стране Hedström and Ylikoski (2010) .

  • Користећи постојеће окружење (Одељак 4.5.1.1)

За више информација о коришћењу кореспонденција студија и студија ревизије за мерење дискриминације видети Pager (2007) .

  • Изградите свој експеримент (Одељак 4.5.1.2)

Најчешћи начин да регрутује учеснике у експериментима које градите је Мецханицал Турк (МТурк). Јер МТурк опонаша аспекти традиционалних лабораторијских експеримената који плаћају људе да заврше задатке које не би радила за слободно многи истраживачи су већ почеле да користе Туркерс (радника на МТурк) као учесника у људе експериментима резултат у бржи и јефтинији прикупљања података од традиционалног на-кампусу лабораторијски експерименти (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Највећа снага експеримената са учесницима долазе из МТурк су логистичку: они омогућавају истраживачима да регрутује учеснике брзо и по потреби. Док лаб експерименти могу да недеља да воде и на терену експерименти могу трајати месецима до сет-уп, експерименти са учесницима долазе из МТурк могу се изводити у данима. На пример, Berinsky, Huber, and Lenz (2012) били у могућности да регрутују 400 предмета у једном дану да учествује у 8 минута експеримента. Даље, ови учесници могу бити регрутовани за готово било коју сврху (укључујући истраживања и масовне сарадње, као што је речено у поглављима 3 и 5). Ова једноставност запошљавања значи да истраживачи могу покренути секвенце повезаних експеримената у временским размацима.

Пре него што регрутовање учесника из МТурк за своје експерименте, постоје четири важне ствари које треба знати. Прво, многи истраживачи имају не-специфичан скептицизам експеримената који укључују Туркерс. Јер ово скептицизам није специфична, тешко је да се супротставе са доказима. Међутим, након неколико година студија користе Туркерс, сада можемо да закључимо да је ово скептицизам није посебно потребно. Било је много студија које упоређују ове демографске Туркерс на друге популације и многим студијама у односу резултате експеримената са Туркерс на резултате из других популација. Имајући у виду сав овај посао, ја мислим да је најбољи начин да размислите о томе да Туркерс су разумни пригодном узорку, баш као студенти, али мало разноврсније (Berinsky, Huber, and Lenz 2012) . Тако, баш као и ученици су разумни популација за неке, али не све експериментална истраживања, Туркерс су разумни популација за неке, али не све истраживања. Ако ћете радити са Туркерс, онда има смисла да читају многи од ових компаративних студија и разуме њихове нијансе.

Друго, истраживачи су развили најбоље праксе за повећање интерну валидност Турци експеримената, и требало би да науците и пратите ове најбоље праксе (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . На пример, истраживачи користе Туркерс се охрабрују да користе сита за уклањање пажњом учесника (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (али види и DJ Hauser and Schwarz (2015b) и DJ Hauser and Schwarz (2015a) ). Ако не уклоните са пажњом учесника, онда сваки ефекат третмана може се опрати од буке уведен од пажњом учесника, а у пракси број пажњом учесника може бити значајан. У експерименту Хубер и колега (2012) 30% испитаника није успело основне пажње сита. Још један проблем заједно са Туркерс је не наивни учесника (Chandler et al. 2015) .

Треће, у односу на неке друге облике дигиталне експеримената, МТурк експерименти не могу сцале; Stewart et al. (2015) да у сваком тренутку има само око 7.000 људи на МТурк.

На крају, треба знати да МТурк је заједница са својим правилима и нормама (Mason and Suri 2012) . На исти начин на који ће покушати да сазнају о култури земље у којој сте били ће да води своје експерименте, требало би да покушате да сазнате више о култури и норми Туркерс (Salehi et al. 2015) . И, требало би да знате да ће Туркерс се говори о вашем експерименту ако радите нешто неприкладно или неморално (Gray et al. 2016) .

МТурк је невероватно згодан начин да регрутује учеснике да својим експериментима, да ли су лабораторије као, као што је Huber, Hill, and Lenz (2012) , или више области налик, као што је Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , и Mao et al. (2016) .

  • Изградите свој производ (Одељак 4.5.1.3)

Ако сте мислили да покушава да створи свој производ, препоручујем да прочитате савете које нуди групе МовиеЛенс у Harper and Konstan (2015) . Кључни увид из њиховог искуства је да за сваки успешан пројекат има много, много пропуста. На пример, МовиеЛенс група је покренула и друге производе као што су ГопхерАнсверс који су били комплетни неуспеси (Harper and Konstan 2015) . Још један пример истраживача неисправног док покушава да изгради производ је покушај Едвард Цастронова да изгради онлине игру која се зове Арден. Упркос $ 250,000 у финансирању, пројекат је био промашај (Baker 2008) . Пројекти попут ГопхерАнсверс и Арден су нажалост много више заједничког него пројеката као што МовиеЛенс. На крају, када сам рекао да не зна ни за један други истраживачи који су успешно градили производе за поновно експериментисање ево мој критеријуми: 1) учесници користили овај производ због онога што им даје (нпр, они нису плаћени и нису volonteri помажу науке) и 2) производ се користи за више од једног посебног експеримента (а не истог експеримента више пута са различитим учесника базена). Ако знате других примера, јавите ми.

  • Партнер са моћни (Одељак 4.5.2)

Чуо сам идеју Пастеур је квадранту разматра често на тецх компанија, и помаже организује истраживачке напоре на Гоогле-у (Spector, Norvig, and Petrov 2012) .

Веза и студија колега (2012) покушава да открије ефекат ових третмана на пријатељима оних који су их добили. Због дизајна експеримента, ове преливања тешко открити чисто; заинтересовани читаоци треба да види Bond et al. (2012) дубљу дискусију. Овај експеримент је део дуге традиције експеримената у политичке науке на напорима да се подрже гласање (Green and Gerber 2015) . Ове гет оут-и-воте експерименти су уобичајени делом због тога што су у Пастеур је квадранту. То је, има много људи који су мотивисани да повећају гласање и гласање може бити занимљив понашање за тестирање више општих теорије о променама понашања и друштвеног утицаја.

Други истраживачи су обезбедили савете о покретању експерименте на терену са партнерским организацијама као што су политичке партије, невладине организације и предузећа (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Други су понудили савете о томе како партнерства са организацијама може утицати истраживања дизајна (Green, Calfano, and Aronow 2014; King et al. 2007) . Партнерство такође може довести до етичких питања (Humphreys 2015; Nickerson and Hyde 2016) .

  • Дизајн савет (Одељак 4.6)

Ако идете сачинити план за анализу пре него што покренете експеримент, предлажем да почнете читањем упутства извештавања. Пратилац (Консолидовани Стандардна Извјештавање о суђењима) смерница су развијени у медицини (Schulz et al. 2010) модификована за друштвена истраживања (Mayo-Wilson et al. 2013) . Сродна скуп смерница је развијен од стране уредника Јоурнал оф Екпериментал политичких наука (Gerber et al. 2014) (види Mutz and Pemantle (2015) Gerber et al. (2015) ). Коначно, извештавање смернице развијене су у психологији (Group 2008) , а види и Simmons, Nelson, and Simonsohn (2011) .

Ако направите план анализа треба узети у обзир да је пре регистрације јер ће пре регистрација повећати поверење које други имају у својим резултатима. Даље, ако радите са партнером, то ће ограничити способност свог партнера да промени анализу након што резултата. Предбиљежба постаје све чешћи у психологији (Nosek and Lakens 2014) , политичке науке (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , и економија (Olken 2015) .

Док ствара свој план пре анализе треба да будете свесни да неки истраживачи користе и регресију и сродних приступа се побољшала прецизност од процењене ефекта третмана, и ако постоји дебата о овом приступу: Freedman (2008) , Lin (2013) , и Berk et al. (2013) ; види Bloniarz et al. (2016) више информација.

Дизајн савет посебно за онлине пољским огледима је такође представљен у Konstan and Chen (2007) Chen and Konstan (2015) .

  • Створити нула променљиве податке о трошковима (Одељак 4.6.1)

За више на МусицЛаб експериментима, погледајте Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , и Salganik (2007) . За више информација о победник-таке-свим тржиштима, погледајте Frank and Cook (1996) . За више информација о РАЗМРСИТИ среће и вештине генерално, види Mauboussin (2012) , Watts (2012) Frank (2016) .

Постоји још један приступ елиминисању плаћања учесника да истраживачи треба користити са опрезом: регрутацију. У многим онлајн пољским огледима учесници су у основи нацрт у експериментима и никада надокнадити. Примери овог приступа укључују Рестиво и ван де Ријт је (2012) на награде у Википедиа и Бонд и колеге (2012) на подстицање људи да гласају. Ови експерименти стварно немам нула варијабилни трошкови, они имају нула варијабилни трошкови за истраживаче. Иако је цена многих од ових експеримената је изузетно мали сваком учеснику, мали трошкови наметнути огроман број учесника може додати брзо. Истраживачи који раде огромне онлајн експерименте често оправдавају значај малих ефеката процена лечења рекавши да ови мали ефекти могу постати важно када се примењује за многе људе. Потпуно исти размишљање важи и за трошкове које истраживачи намећу учесницима. Ако ваши експерименти изазива милион људи за губљење један минут, експеримент није врло штетно да било којој особи, али у агрегат је изгубљено скоро две године времена.

Други приступ стварању променљиву плаћање нула трошкова учесницима је да користите лутрији, што је приступ који је такође коришћен у истраживању (Halpern et al. 2011) . Коначно, за више о пројектовању пријатно усер-искуства види Toomim et al. (2011) .

  • Заменити, Детаљнија, и смањење (Одељак 4.6.2)

Овде су оригинални дефиниције три Р, из Russell and Burch (1959) :

"Замена значи замену за свесних живе виших животиња неосетљиви материјала. Смањење значи смањење броја животиња које се користе за добијање информације о датом количином и прецизношћу. Префињеност значи било смањење учесталости или тежине нехуманих поступака који се примењују на оне животиње које тек треба да се користи. "

Три 'Р је да предложи не замењују етичке принципе описане у Поглављу 6. Уместо тога, они су детаљнији верзија један од оних принципа-милосрђе-специјално за постављање људских експеримената.

Приликом разматрања Емоционална Цонтагион, постоје три не-етичка питања треба имати на уму приликом тумачења овај експеримент. Прво, није јасно како су стварни детаљи експеримента повезати са теоријским тврдњама; Другим речима, постоје питања о важности конструкт. Није јасно да су позитивне и негативне речи броји заправо добар показатељ емоционално стање учесника јер 1) није јасно да су речи које људи писати су добар показатељ њихових емоција и 2) није јасно да poseban техника осећање анализа да истраживачи су користили је у стању да поуздано закључити емоције (Beasley and Mason 2015; Panger 2016) . Другим речима, може доћи до лоше мера пристрасан сигнала. Друго, дизајн и анализа експеримента нам ништа не говори о томе ко је највише утицала (тј, не постоји анализа хетерогеност ефеката лечења) и шта би могло бити механизам. У овом случају, истраживачи су доста информација о учесницима, али су у суштини третирани као видгета у анализи. Треће, величина ефекат у овом експерименту био веома мали; разлика између услова лечења и контроле је око 1 у 1000 речи. У свом раду, Крамер и колеге да случај да ефекат ове величине је важно јер стотине милиона људи приступају им Невс Феед сваки дан. Другим речима, они тврде да чак и ефекте који су мали за сваку особу су они велики у агрегату. Чак и ако се прихвати овај аргумент, још увек није јасно да ли ефекат ове величине је важно у вези са генералном научно питање о емотивном заразе. За више информација о ситуацијама у којима су мали ефекти важно видети Prentice and Miller (1992) .

Што се тиче првог Р (замена), у односу на емотивном Цонтагион експеримент (Kramer, Guillory, and Hancock 2014) емоционална заразе природни експеримент (Coviello et al. 2014) неке опште лекције о компромисима који су укључени у покрету од експерименти до природних експеримената (и осталим приступима као подударање које покушавају да приближавање експерименте у не-експерименталних података, види поглавље 2). Поред етичких предности, пребацивање из експерименталних не-експерименталних студија такође омогућава истраживачима да студирају третмане који су логистички нису у могућности да распореди. Ове етичке и логистички предности долазе по цени, међутим. Са природних експеримената истраживачи имају мање контроле над стварима као што су регрутовање учесника, насумичног и природу третмана. На пример, једно ограничење падавина као третман је да и повећава позитивност и смањује негативност. У експерименталном истраживању, међутим, Крамер и колеге били у стању да прилагоди позитивност и негативност самостално.

Посебан приступ користи Coviello et al. (2014) разрађен у Coviello, Fowler, and Franceschetti (2014) . За увод у инструменталних варијабли видети Angrist and Pischke (2009) (мање формалан) или Angrist, Imbens, and Rubin (1996) (више формално). За скептичан процене инструменталних варијабли погледајте Deaton (2010) , и за упознавање са инструменталним варијабли са слабим инструментима (киша је слаба инструмента), види Murray (2006) .

Уопштено говорећи, добар увод у природним експериментима је Dunning (2012) , и Rosenbaum (2002) , Rosenbaum (2009) , и Shadish, Cook, and Campbell (2001) добре идеје о процени узрочно-последичне ефекте без експеримената.

Што се тиче другог Р (префињености), постоје научни и логистички компромиси када се разматрају промене дизајна емотивних Цонтагион од блокира поруке на јачање поруке. На пример, то може бити случај да је техничка реализација Невс Феед чини знатно лакше радити експеримент са блокирањем поруке него експеримент са повишење поруке (напомена да би експеримент са блокирањем поруке се спровести као слој на врх Невс Феед систем без потребе за изменама основног система). Научно, међутим, теорија се обратили експеримента није јасно указују на један дизајн у односу на друге.

На жалост, нисам свестан знатне претходног истраживања о релативно добрих блокирање и повећање садржаја на Невс Феед. Исто тако, нисам видео много истраживања о усавршавању третмане да чине их мање штетне; Једини изузетак је Jones and Feamster (2015) , који разматра случај мерење цензуре интернета (на тему сам дискутовати у Поглављу 6 у односу на студије Енцоре (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

Што се тиче трећег Р (смањење), добар увод у традиционалне анализе електричног Cohen (1988) . коваријабиле пре третмана могу бити укључени у фази пројектовања и фази анализе експеримената; Поглавље 4 Gerber and Green (2012) добар увод у оба приступа, и Casella (2008) третман више у дубину. Технике које користе ову информацију пре третмана у насумичног се обично називају или блокиран експерименталне пројекте или стратификоване експерименталног дизајна (терминологија није доследно користи преко заједница); ове технике су дубоко повезани са слојевитим техникама узорковања је објашњено у Поглављу 3. Видети Higgins, Sävje, and Sekhon (2016) више информација о коришћењу ових дизајн у масивним експериментима. Коваријабиле предтретмана могу бити укључени у фази анализе. McKenzie (2012) разлике-у-разлика приступ анализирања експерименте теренских детаљније. Погледајте Carneiro, Lee, and Wilhelm (2016) више о уступцима између различитих приступа за повећање прецизност у проценама ефеката лечења. На крају, приликом одлучивања да ли да покушавају да укључе коваријабиле пре третмана у фази пројектовања или анализу (или обоје), постоји неколико фактора треба узети у обзир. У ситуацији у којој истраживачи желе да покажу да нису "риболов" (Humphreys, Sierra, and Windt 2013) , користећи коваријабиле пре третмана у фази пројектовања може бити од помоћи (Higgins, Sävje, and Sekhon 2016) . У ситуацијама када учесници долазе редом, посебно онлајн пољским огледима, користећи информације пре третмана у фази пројектовања може бити тешко логистички, видети на пример Xie and Aurisset (2016) .

Вреди додавање мало интуиције о томе зашто разлика-у-разлика може бити много ефикаснија него разлика-у-средствима. Многи онлине резултати имају веома висок степен варијација (види нпр, Lewis and Rao (2015) Lamb et al. (2015) и релативно стабилни током времена. У том случају, промена резултат ће имати знатно мању варијацију, повећава снагу статистички тест. Један од разлога овај приближио се не користи чешће је да није било пре дигиталном добу заједнички да исходе пре лечења. Још конкретнији начин размишљања о томе је замислити експеримент за мерење да ли је одређена вежба рутински доводи до губитка тежине. Ако радите приступ разлика-у-средстава, ваша процена ће имати варијабилност која долази из варијабилности у тежине у популацији. Уколико приступ Разлика-у-разлици, међутим, да природно варијација у тежинама бива уклоњене и можете лакше открије разлику насталу услед третмана.

Један важан начин да се смањи број учесника у експерименту је да спроведе анализу снаге, које Крамер и колеге могао да уради на основу величине ефекат посматраних од природног експерименту Coviello et al. (2014) раније не-експериментална истраживања Крамер (2012) (у ствари то су активности на крају овог поглавља). Обратите пажњу да ово употреба анализе снаге је мало другачија од типично. У аналогном добу, истраживачи углавном било анализу снаге да се уверите да њихова студија није био превише мали (тј, под погон). Сада, међутим, истраживачи треба да уради анализу снаге да се уверите да њихова студија није превелика (тј, преко погон).

Коначно, сматрао сам додао и четврти: Р: Репурпосе. То јест, ако истраживачи су пронашли са више експерименталних података него што је потребно да се обрати свој оригинални истраживачко питање, требало би да репурпосе податке поставити нова питања. На пример, замислите да Крамер и колеге су користили разлика-у-разлика за процену и нашли са више података него што је потребно да се обрати своје истраживачко питање. Уместо да не користи податке у највећој могућој мери, могли су проучавали величину ефекта у функцији за предтретман емоционалне експресије. Као што Schultz et al. (2007) утврдио да је ефекат третмана било другачије за лаке и тешке корисницима, можда ефекти Невс Феед били су различити за људе који већ уређеним да поставите сретних (или тужне) поруке. Репурпосинг би могло довести до "пецање" (Humphreys, Sierra, and Windt 2013) и "П-хацкинг" (Simmons, Nelson, and Simonsohn 2011) , али они су у великој мери адресирати са комбинацијом искрене извештавања (Simmons, Nelson, and Simonsohn 2011) , пред-регистрација (Humphreys, Sierra, and Windt 2013) , и методе учења машина које покушавају да избегну преко-фиттинг.