sylwebaeth pellach

Mae'r adran hon wedi'i chynllunio i gael ei ddefnyddio fel cyfeiriad, yn hytrach nag i'w ddarllen fel naratif.

  • Cyflwyniad (Adran 4.1)

Cwestiynau am achosiaeth mewn ymchwil gymdeithasol yn aml yn gymhleth a chymhleth. Am ymagwedd foundational i achosiaeth yn seiliedig ar graffiau achosol, gweler Pearl (2009) , ac ar gyfer dull foundational seiliedig ar ganlyniadau posibl, gweler Imbens and Rubin (2015) (a'r atodiad technegol yn y bennod hon). Am gymhariaeth rhwng y ddau ddull, gweler Morgan and Winship (2014) . Am ymagwedd ffurfiol i ddiffinio confounder, gweler VanderWeele and Shpitser (2013) .

Yn y bennod, yr wyf yn creu yr hyn a oedd yn ymddangos fel llinell llachar rhwng ein gallu i wneud amcangyfrifon achosol o ddata arbrofol a heb fod yn arbrawf. Mewn gwirionedd, yr wyf yn meddwl bod y gwahaniaeth yn blurrier. Er enghraifft, mae pawb yn derbyn bod ysmygu'n achosi canser er nad ydym wedi gwneud arbrawf rheoledig ar hap sydd yn gorfodi pobl i ysmygu. Ar gyfer triniaethau hyd llyfr ardderchog ar wneud amcangyfrifon achosol o ddata nad ydynt yn arbrofol gweler Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , a Dunning (2012) .

Penodau 1 a 2 o Freedman, Pisani, and Purves (2007) yn cynnig cyflwyniad clir i mewn i'r gwahaniaethau rhwng arbrofion, arbrofion rheoledig, ac ar hap arbrofion rheoledig.

Manzi (2012) yn rhoi cyflwyniad diddorol a darllenadwy mewn i'r sylfeini athronyddol ac ystadegol o arbrofion rheoledig ar hap. Mae hefyd yn darparu enghreifftiau byd go iawn diddorol o rym arbrofi mewn busnes.

  • Beth yw arbrofion? (Adran 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) yn darparu cyflwyniadau da i agweddau ystadegol o ddylunio a dadansoddi arbrofol. Ymhellach, mae triniaethau ardderchog o'r defnydd o arbrofion mewn nifer o wahanol feysydd: economeg (Bardsley et al. 2009) , Cymdeithaseg (Willer and Walker 2007; Jackson and Cox 2013) , seicoleg (Aronson et al. 1989) , Gwyddor wleidyddol (Morton and Williams 2010) , a pholisi cymdeithasol (Glennerster and Takavarasha 2013) .

Pwysigrwydd recriwtio cyfranogwyr (ee, samplu) yn aml dan-gwerthfawrogi drwy ymchwil arbrofol. Fodd bynnag, os bydd effaith y driniaeth yn heterogenaidd yn y boblogaeth, yna samplu yn hanfodol. Longford (1999) yn gwneud y pwynt hwn yn glir pan fydd yn eiriolwyr ar gyfer ymchwilwyr meddwl am arbrofion fel arolwg poblogaeth gyda samplu ar hap.

  • Dau ddimensiwn o arbrofion: lab-cae a analog-digidol (Adran 4.3)

Mae'r ddeuoliaeth a gyflwynais rhwng labordy a maes arbrofion yn dipyn symleiddio. Yn wir, ymchwilwyr eraill wedi cynnig teipoleg mwy manwl, fesul un arbennig sy'n gwahanu'r gwahanol fathau o arbrofion maes (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Bellach, mae dau fath arall o arbrofion perfformio gan wyddonwyr cymdeithasol nad ydynt yn ffitio'n daclus i mewn i'r labordy a maes hollt:. Arbrofion arolwg ac arbrofion cymdeithasol arbrofion Arolwg yn arbrofion gan ddefnyddio isadeiledd arolygon presennol a chymharu ymatebion i'r fersiynau amgen o'r un cwestiynau (rhai arbrofion arolwg yn cael eu cyflwyno ym Mhennod 3); am fwy ar arbrofion arolwg gweler Mutz (2011) . arbrofion Cymdeithasol arbrofion lle mae'r driniaeth yn rhywfaint o bolisi cymdeithasol na ellir ond eu rhoi ar waith gan y llywodraeth. arbrofion cymdeithasol yn perthyn yn agos i raglen werthuso. Am fwy ar arbrofion polisi, gweler Orr (1998) , Glennerster and Takavarasha (2013) , a Heckman and Smith (1995) .

Mae nifer o bapurau wedi cymharu labordy a maes arbrofion yn y haniaethol (Falk and Heckman 2009; Cialdini 2009) ac o ran canlyniadau arbrofion penodol mewn gwyddoniaeth wleidyddol (Coppock and Green 2015) , economeg (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) a seicoleg (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) yn cynnig cynllun ymchwil 'n glws ar gyfer cymharu canlyniadau o labordy a maes arbrofion.

Pryderon am cyfranogwyr newid eu hymddygiad oherwydd eu bod yn gwybod eu bod yn cael eu harsylwi yn agos yn cael eu galw weithiau effeithiau y galw, ac maent wedi cael eu hastudio mewn seicoleg (Orne 1962) ac economeg (Zizzo 2009) . Er bod yn gysylltiedig yn bennaf â arbrofion labordy, gall y rhain un materion yn achosi problemau ar gyfer arbrofion maes hefyd. Yn wir, effeithiau galw hefyd a elwir weithiau effeithiau Hawthorne, term sy'n deillio o'r arbrawf maes, yn benodol yr arbrofion goleuo enwog a ddechreuodd ym 1924 yng Ngwaith Hawthorne y Western Electric Company (Adair 1984; Levitt and List 2011) . Mae'r ddau effeithiau galw ac effeithiau y Ddraenen Wen yn perthyn yn agos i'r syniad o fesur adweithiol a drafodwyd ym Mhennod 2 (gweler hefyd Webb et al. (1966) ).

Mae hanes o arbrofion maes wedi cael ei ddisgrifio mewn economeg (Levitt and List 2009) , gwyddoniaeth wleidyddol (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , seicoleg (Shadish 2002) , a pholisi cyhoeddus (Shadish and Cook 2009) . Un maes gwyddor gymdeithasol lle mae arbrofion maes yn gyflym daeth yn amlwg yn datblygu rhyngwladol. Am adolygiad cadarnhaol o'r gwaith hwnnw o fewn economeg gweld Banerjee and Duflo (2009) , ac ar gyfer asesiad beirniadol gweler Deaton (2010) . Am adolygiad o'r gwaith hwn mewn gwyddoniaeth wleidyddol yn gweld Humphreys and Weinstein (2009) . Yn olaf, yr heriau moesegol sy'n ymwneud â arbrofion maes wedi cael eu harchwilio mewn gwyddoniaeth wleidyddol (Humphreys 2015; Desposato 2016b) ac economeg datblygu (Baele 2013) .

Yn y bennod, awgrymais y gall gwybodaeth cyn-driniaeth yn cael ei ddefnyddio i wella cywirdeb effeithiau triniaeth a amcangyfrifwyd, ond mae rhywfaint o ddadl am ymagwedd hon: Freedman (2008) , Lin (2013) , a Berk et al. (2013) ; gweler Bloniarz et al. (2016) am ragor o wybodaeth.

  • Symud y tu hwnt arbrofion syml (Adran 4.4)

Rwyf wedi dewis canolbwyntio ar dri chysyniad: dilysrwydd, heterogenedd o effeithiau triniaeth, a mecanweithiau. Mae'r cysyniadau hyn yn cael enwau gwahanol mewn gwahanol feysydd. Er enghraifft, mae seicolegwyr yn tueddu i symud y tu hwnt i arbrofion syml drwy ganolbwyntio ar cyfryngwyr a chymedrolwyr (Baron and Kenny 1986) . Mae'r syniad o cyfryngwyr yn cael ei ddal gan yr hyn yr wyf yn galw fecanweithiau, a'r syniad o safonwyr yn cael ei ddal gan yr hyn yr wyf yn galw dilysrwydd allanol (ee, byddai canlyniadau'r arbrawf fod yn wahanol pe bai'n cael ei redeg mewn gwahanol sefyllfaoedd) a heterogenedd o effeithiau triniaeth ( ee, yw effeithiau mwy ar gyfer rhai pobl na phobl eraill).

Mae'r arbrawf o Schultz et al. (2007) yn dangos sut y damcaniaethau cymdeithasol yn cael ei ddefnyddio i gynllunio ymyriadau effeithiol. Am ddadl mwy cyffredinol am rôl theori wrth ddylunio ymyriadau effeithiol, gweler Walton (2014) .

  • Dilysrwydd (Adran 4.4.1)

Gysyniadau dilysrwydd mewnol ac allanol eu cyflwyno gyntaf yn Campbell (1957) . Gweler Shadish, Cook, and Campbell (2001) am hanes mwy manwl ac yn ymhelaethu gofalus o ddilysrwydd casgliad ystadegol, dilysrwydd mewnol, adeiladu dilysrwydd, a dilysrwydd allanol.

I gael trosolwg o faterion yn ymwneud â dilysrwydd casgliad ystadegol mewn arbrofion yn gweld Gerber and Green (2012) (ar gyfer persbectif gwyddorau cymdeithasol) a Imbens and Rubin (2015) (ar gyfer safbwynt ystadegol). Rhai materion dilysrwydd casgliad ystadegol sy'n codi yn benodol mewn arbrofion maes ar-lein yn cynnwys materion fel dulliau computationally effeithlon ar gyfer creu cyfyngau hyder gyda data dibynnol (Bakshy and Eckles 2013) .

Gall dilysrwydd mewnol fod yn anodd i sicrhau mewn arbrofion maes cymhleth. Gweler, er enghraifft, Gerber and Green (2000) , Imai (2005) , a Gerber and Green (2005) ar gyfer trafodaeth am o arbrawf maes cymhleth am bleidleisio ar waith. Kohavi et al. (2012) a Kohavi et al. (2013) yn rhoi cyflwyniad ar yr heriau o ddilysrwydd egwyl mewn arbrofion maes ar-lein.

Un pryder mawr gyda dilysrwydd mewnol yw problemau gyda randomization. Un ffordd o bosibl yn canfod problemau gyda'r randomization yw cymharu grwpiau triniaeth a rheolaeth ar nodweddion gweladwy. Gelwir y math hwn o gymhariaeth gwiriad cydbwysedd. Gweler Hansen and Bowers (2008) ar gyfer dull ystadegol i gydbwyso sieciau, a gweld Mutz and Pemantle (2015) ar gyfer pryderon am wiriadau cydbwysedd. Er enghraifft, gan ddefnyddio cydbwysedd gwirio Allcott (2011) fod yna rywfaint o dystiolaeth nad oedd y randomization ei gweithredu'n gywir mewn tri o'r arbrofion yn rhai o'r arbrofion OPower (gweler Tabl 2; safleoedd 2, 6, ac 8). Ar gyfer dulliau eraill, gweler Imbens and Rubin (2015) , Pennod 21.

pryderon mawr eraill sy'n gysylltiedig â dilysrwydd mewnol yw: 1) un-ochrog ddiffyg cydymffurfio, lle nad yw pawb yn y grŵp triniaeth mewn gwirionedd yn derbyn y driniaeth, 2) dau ochr beidio â chydymffurfio, lle nad yw pawb yn y grŵp triniaeth yn derbyn y driniaeth a'r rhai pobl yn y grŵp rheoli yn cael y driniaeth, 3) athreuliad, lle nad yw canlyniadau'n cael eu mesur i rai cyfranogwyr, a 4) ymyrraeth, os yw'r driniaeth colledion drosodd o bobl yn y cyflwr triniaeth i bobl yn amod rheoli. Gweler Gerber and Green (2012) Phenodau 5, 6, 7, ac 8 am fwy ar bob un o'r materion hyn.

I gael rhagor o wybodaeth am ddilysrwydd lluniad, gweler Westen and Rosenthal (2003) , ac am fwy ar ddilysrwydd lluniad mewn ffynonellau data mawr, Lazer (2015) a Phennod 2 o'r llyfr hwn.

Un agwedd ar ddilysrwydd allanol yw'r lleoliad lle ymyriad yn cael ei brofi. Allcott (2015) yn darparu triniaeth damcaniaethol ac empirig gofalus o ragfarn dewis safle. Mae'r mater hwn hefyd yn cael ei drafod yn Deaton (2010) . Yn ogystal â chael ei ailadrodd mewn nifer o safleoedd, yr ymyriad Adroddiad Ynni Cartref hefyd wedi cael ei hastudio annibynnol gan grwpiau ymchwil lluosog (ee, Ayres, Raseman, and Shih (2013) ).

  • Heterogenedd o effeithiau triniaeth (Adran 4.4.2)

I gael trosolwg ardderchog o heterogenedd o effeithiau triniaeth mewn arbrofion maes, gweler Pennod 12 o Gerber and Green (2012) . Ar gyfer cyflwyniadau i heterogenedd o effeithiau triniaeth mewn treialon feddygol, gweler Kent and Hayward (2007) , Longford (1999) , a Kravitz, Duan, and Braslow (2004) . Heterogenedd o effeithiau triniaeth yn gyffredinol yn canolbwyntio ar y gwahaniaethau yn seiliedig ar nodweddion cyn-driniaeth. Os oes gennych ddiddordeb mewn heterogenedd yn seiliedig ar ganlyniadau ar ôl y driniaeth, yna mae angen approachs mwy cymhleth megis prif haenu (Frangakis and Rubin 2002) ; gweler Page et al. (2015) ar gyfer adolygiad.

Mae llawer o ymchwilwyr yn amcangyfrif y heterogenedd o effeithiau triniaeth gan ddefnyddio atchweliad llinol, ond mae dulliau mwy newydd yn dibynnu ar ddysgu beiriant, er enghraifft Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , a Athey and Imbens (2016a) .

Mae rhywfaint o amheuaeth ynghylch canfyddiadau heterogenedd o effeithiau oherwydd problemau cymharu lluosog a "physgota." Mae yna amrywiaeth o ddulliau ystadegol a all helpu gyfeiriad bryderon am gymhariaeth lluosog (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Un dull o bryderon ynghylch "pysgota" yn cyn-gofrestru, sydd yn dod yn fwyfwy cyffredin mewn seicoleg (Nosek and Lakens 2014) , gwyddoniaeth wleidyddol (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , ac economeg (Olken 2015) .

Yn yr astudiaeth o Costa and Kahn (2013) dim ond tua hanner yr aelwydydd yn yr arbrawf yn gallu fod yn gysylltiedig â'r wybodaeth ddemograffig. Dylai darllenwyr sydd â diddordeb yn y manylion a phroblemau posibl gyda'r dadansoddiad hwn yn cyfeirio at y papur gwreiddiol.

  • Mecanweithiau (Adran 4.4.3)

Mae mecanweithiau yn hynod o bwysig, ond maent yn troi allan i fod yn anodd iawn i astudio. Ymchwil am fecanweithiau perthyn yn agos i'r astudiaeth o gyfryngwyr mewn seicoleg (ond gweler hefyd VanderWeele (2009) ar gyfer cymhariaeth manwl gywir rhwng y ddau syniad). Dulliau ystadegol i fecanweithiau dod o hyd, fel y dull a ddatblygwyd yn Baron and Kenny (1986) , yn eithaf cyffredin. Yn anffodus, mae'n ymddangos fod y gweithdrefnau hynny yn dibynnu ar rai rhagdybiaethau cryf (Bullock, Green, and Ha 2010) ac yn dioddef pan mae mecanweithiau lluosog, fel y gellid disgwyl mewn llawer o sefyllfaoedd (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) a Imai and Yamamoto (2013) yn cynnig rhai dulliau ystadegol gwell. Ymhellach, VanderWeele (2015) yn cynnig triniaeth llyfrau-hyd gyda nifer o ganlyniadau pwysig, gan gynnwys dull cynhwysfawr o ddadansoddiad sensitifrwydd.

Mae dull ar wahân yn canolbwyntio ar arbrofion sy'n ceisio trin y mecanwaith yn uniongyrchol (ee, gan roi morwyr fitamin C). Yn anffodus, mewn llawer o leoliadau gwyddorau cymdeithasol yn aml ceir mecanweithiau lluosog ac mae'n anodd i ddylunio triniaethau sy'n newid un heb newid y lleill. Mae rhai dulliau o arbrawf mecanweithiau newid eu disgrifio yn Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , a Pirlott and MacKinnon (2016) .

Yn olaf, mae gan fecanweithiau hanes hir yn y athroniaeth gwyddoniaeth fel y disgrifir gan Hedström and Ylikoski (2010) .

  • Gan ddefnyddio amgylcheddau sy'n bodoli eisoes (Adran 4.5.1.1)

Am fwy ar y defnydd o astudiaethau gohebiaeth ac astudiaethau archwilio i fesur gwahaniaethu gweld Pager (2007) .

  • Adeiladu eich arbrawf eich hun (Adran 4.5.1.2)

Y ffordd fwyaf cyffredin o recriwtio cyfranogwyr i arbrofion yr ydych yn adeiladu yw Amazon Mecanyddol Turk (MTurk). Gan fod MTurk dynwared agweddau ar arbrofion sy'n talu labordy traddodiadol pobl i gwblhau tasgau na fyddent yn ei wneud ar gyfer ymchwilwyr rhad ac am ddim-mae llawer eisoes wedi dechrau defnyddio Turkers (gweithwyr ar MTurk) fel cyfranogwyr mewn arbrofion pynciau dynol arwain at gasglu data yn gyflymach ac yn rhatach nag traddodiadol arbrofion labordy ar y campws (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Mae cryfder mwyaf o arbrofion gyda chyfranogwyr recriwtio o MTurk yn logistaidd: maent yn caniatáu i ymchwilwyr i recriwtio cyfranogwyr yn gyflym ac yn ôl yr angen. Tra gall arbrofion labordy gymryd wythnosau i redeg a gall arbrofion maes gymryd misoedd i sefydlu, gall arbrofion gyda chyfranogwyr recriwtio o MTurk cael ei redeg mewn diwrnodau. Er enghraifft, Berinsky, Huber, and Lenz (2012) llwyddwyd i recriwtio 400 o bynciau mewn un diwrnod i gymryd rhan mewn arbrawf 8 munud. Ymhellach, gall cyfranogwyr hyn yn cael eu recriwtio ar gyfer bron unrhyw bwrpas (gan gynnwys arolygon a chydweithio torfol, fel y trafodwyd ym Mhenodau 3 a 5). Mae'r rhwyddineb recriwtio yn golygu y gall ymchwilwyr rhedeg dilyniannau o arbrofion cysylltiedig yn olynol cyflym.

Cyn recriwtio cyfranogwyr o MTurk ar gyfer eich arbrofion eich hun, mae pedwar peth pwysig i'w wybod. Yn gyntaf, mae llawer o ymchwilwyr yn cael amheuon amhenodol o arbrofion sy'n cynnwys Turkers. Oherwydd nad yw amheuon hyn yn benodol, mae'n anodd i wrthsefyll gyda thystiolaeth. Fodd bynnag, ar ôl sawl blwyddyn o astudiaethau gan ddefnyddio Turkers, gallwn yn awr yn dod i'r casgliad nad amheuaeth mae hyn yn arbennig o angenrheidiol. Bu llawer o astudiaethau yn cymharu demograffeg Turkers i boblogaethau eraill a llawer o astudiaethau yn cymharu canlyniadau arbrofion gyda Turkers i'r canlyniadau o boblogaethau eraill. O ystyried yr holl waith hwn, yr wyf yn meddwl mai'r ffordd orau i chi feddwl am y peth yw bod Turkers yn sampl gyfleus rhesymol, yn debyg iawn fyfyrwyr ond ychydig yn fwy amrywiol (Berinsky, Huber, and Lenz 2012) . Felly, yn union fel myfyrwyr yn poblogaeth rhesymol ar gyfer rhai ond nid pob ymchwil arbrofol, Turkers yn boblogaeth rhesymol ar gyfer rhai ond nid pob ymchwil. Os ydych yn mynd i weithio gyda Turkers, yna mae'n gwneud synnwyr i ddarllen llawer o'r astudiaethau cymharol hyn ac yn deall eu arlliwiau.

Yn ail, mae ymchwilwyr wedi datblygu orau-arferion ar gyfer cynyddu dilysrwydd mewnol arbrofion Turk, a dylech ddysgu am a dilyn y rhain orau-arferion (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Er enghraifft, mae ymchwilwyr yn defnyddio Turkers eu hannog i ddefnyddio sgrinwyr i gael gwared ar gyfranogwyr inattentive (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (ond gweler hefyd DJ Hauser and Schwarz (2015b) a DJ Hauser and Schwarz (2015a) ). Os nad ydych yn cael gwared cyfranogwyr inattentive, yna gall unrhyw effaith y driniaeth yn cael ei olchi allan gan sŵn a gyflwynwyd gan gyfranogwyr inattentive, ac yn ymarferol gall nifer y cyfranogwyr inattentive fod yn sylweddol. Yn yr arbrawf o Huber a chydweithwyr (2012) wedi methu tua 30% o gyfranogwyr sgrinwyr sylw sylfaenol. Problem arall gyffredin â Turkers yw cyfranogwyr nad ydynt yn naïf (Chandler et al. 2015) .

Yn drydydd, o gymharu â rhai mathau eraill o arbrofion digidol, arbrofion MTurk ni all raddfa; Stewart et al. (2015) yn amcangyfrif bod ar unrhyw adeg benodol, mae dim ond tua 7,000 o bobl ar MTurk.

Yn olaf, dylech wybod bod MTurk yn gymuned gyda ei reolau a normau eu hunain (Mason and Suri 2012) . Yn yr un modd ag y byddech yn ceisio dod o hyd i wybodaeth am ddiwylliant gwlad lle rydych yn mynd i redeg eich arbrofion, dylech geisio darganfod mwy am ddiwylliant a normau Turkers (Salehi et al. 2015) . Ac, dylech wybod y bydd y Turkers yn siarad am eich arbrawf os ydych yn gwneud rhywbeth amhriodol neu anfoesegol (Gray et al. 2016) .

MTurk yn ffordd hynod o gyfleus i recriwtio cyfranogwyr at eich arbrofion, p'un a ydynt yn lab-fel, megis Huber, Hill, and Lenz (2012) , neu yn fwy cae-fel, megis Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , a Mao et al. (2016) .

  • Adeiladu eich cynnyrch eich hun (Adran 4.5.1.3)

Os ydych yn meddwl am geisio creu eich cynnyrch eich hun, yr wyf yn argymell eich bod yn darllen y cyngor a gynigir gan y grŵp MovieLens yn Harper and Konstan (2015) . Mae cipolwg allweddol o'u profiad ni yw bod ar gyfer pob prosiect llwyddiannus mae llawer, llawer o fethiannau. Er enghraifft, lansiwyd y grŵp MovieLens cynhyrchion eraill megis GopherAnswers a oedd yn cwblhau methiannau (Harper and Konstan 2015) . Enghraifft arall o ymchwilydd yn methu wrth geisio i adeiladu cynnyrch yn ymgais Edward CASTRONOVA i adeiladu gêm ar-lein o'r enw Arden. Er gwaethaf $ 250,000 yn gyllid, roedd y prosiect yn fflop (Baker 2008) . Mae prosiectau fel GopherAnswers a Arden yn anffodus yn llawer mwy cyffredin nag prosiectau fel MovieLens. Yn olaf, pan ddywedais nad oeddwn yn gwybod am unrhyw ymchwilwyr eraill a oedd wedi adeiladu cynhyrchion llwyddiannus am arbrofi hailadrodd yma yw fy feini prawf: 1) cyfranogwyr defnyddio'r cynnyrch oherwydd yr hyn y mae'n ei ddarparu iddynt (ee, nid ydynt yn cael eu talu ac nid ydynt yn gwirfoddolwyr sy'n helpu gwyddoniaeth) a 2) y cynnyrch wedi cael ei ddefnyddio ar gyfer mwy nag un arbrawf gwahanol (hy, nid yr un arbrawf sawl gwaith gyda gwahanol byllau cymryd rhan). Os ydych yn gwybod am enghreifftiau eraill, rhowch wybod i mi.

  • Partner gyda'r pwerus (Adran 4.5.2)

Rwyf wedi clywed y syniad o Quadrant Pasteur drafodir yn aml mewn cwmnïau technoleg, ac mae'n helpu i drefnu ymdrechion ymchwil yn Google (Spector, Norvig, and Petrov 2012) .

Bond ac astudio cydweithwyr ' (2012) hefyd yn ceisio canfod effaith y triniaethau hyn ar y cyfeillion y rhai sy'n eu dderbyn. Oherwydd cynllun yr arbrawf, spillovers rhain yn anodd eu canfod lân; Dylai darllenwyr sydd â diddordeb weld Bond et al. (2012) ar gyfer trafodaeth fwy trylwyr. Mae'r arbrawf yn rhan o draddodiad hir o arbrofion mewn gwyddoniaeth wleidyddol ar ymdrechion i annog pleidleisio (Green and Gerber 2015) . Mae'r arbrofion get-allan-y-bleidlais yn gyffredin yn rhannol oherwydd eu bod mewn Quadrant Pasteur. Hynny yw, mae yna lawer o bobl sy'n cael eu cymell i gynyddu pleidleisio a phleidleisio yn gallu bod yn ymddygiad diddorol i brofi damcaniaethau mwy cyffredinol ynglŷn â newid ymddygiad a dylanwad cymdeithasol.

Mae ymchwilwyr eraill wedi rhoi cyngor am redeg arbrofion maes gyda sefydliadau partner megis pleidiau gwleidyddol, cyrff anllywodraethol, a busnesau (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Mae eraill wedi cynnig cyngor ynghylch sut y gall partneriaethau gyda sefydliadau effeithio cynlluniau ymchwil (Green, Calfano, and Aronow 2014; King et al. 2007) . Gall y Bartneriaeth hefyd arwain at gwestiynau moesegol (Humphreys 2015; Nickerson and Hyde 2016) .

  • Cyngor Dylunio (Adran 4.6)

Os ydych yn mynd greu cynllun dadansoddiad cyn rhedeg eich arbrawf, yr wyf yn awgrymu eich bod yn dechrau drwy ddarllen canllawiau adrodd. Mae'r CONSORT (Cyfunol Safon Adrodd Treialon) canllawiau eu datblygu mewn meddygaeth (Schulz et al. 2010) ac addasu ar gyfer ymchwil gymdeithasol (Mayo-Wilson et al. 2013) . Mae set gysylltiedig o ganllawiau wedi cael ei ddatblygu gan y golygyddion y Journal of Arbrofol Gwyddor Gwleidyddiaeth (Gerber et al. 2014) (gweler hefyd Mutz and Pemantle (2015) a Gerber et al. (2015) ). Yn olaf, canllawiau adrodd wedi cael eu datblygu mewn seicoleg (Group 2008) , a gweler hefyd Simmons, Nelson, and Simonsohn (2011) .

Os ydych yn creu cynllun dadansoddiad dylech ystyried cyn-gofrestru gan y bydd cyn-gofrestru cynyddu hyder bod gan eraill yn eich canlyniadau. Ymhellach, os ydych yn gweithio gyda phartner, bydd yn cyfyngu ar allu eich partner i newid y dadansoddiad ar ôl gweld y canlyniadau. Cyn-gofrestru yn dod yn fwyfwy cyffredin mewn seicoleg (Nosek and Lakens 2014) , gwyddoniaeth wleidyddol (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , ac economeg (Olken 2015) .

Tra'n creu eich cynllun cyn-ddadansoddiad dylech fod yn ymwybodol bod rhai ymchwilwyr hefyd yn defnyddio atchweliad a dulliau cysylltiedig er mwyn gwella cywirdeb yr effaith triniaeth amcangyfrifedig, ac mae rhywfaint o ddadl am ymagwedd hon: Freedman (2008) , Lin (2013) , a Berk et al. (2013) ; gweler Bloniarz et al. (2016) am ragor o wybodaeth.

Cyngor dylunio yn benodol ar gyfer arbrofion maes ar-lein hefyd yn cael ei gyflwyno mewn Konstan and Chen (2007) a Chen and Konstan (2015) .

  • Creu data cost newidiol sero (Adran 4.6.1)

Am fwy ar yr arbrofion MusicLab, gweler Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , a Salganik (2007) . Am fwy ar-cymryd-pob enillydd farchnadoedd, gweler Frank and Cook (1996) . Am fwy ar lwc a sgiliau untangling yn fwy cyffredinol, gweler Mauboussin (2012) , Watts (2012) , a Frank (2016) .

Mae dull arall i gael gwared daliadau cyfranogwyr y dylai ymchwilwyr ddefnyddio gyda gofal: consgripsiwn. Mewn llawer o arbrofion maes ar-lein sy'n cymryd rhan yn cael eu drafftio yn y bôn i mewn arbrofion a byth gwneud iawn. Mae enghreifftiau o'r dull hwn yn cynnwys Restivo a van de Rijt yn (2012) arbrawf ar wobrwyon mewn Wikipedia a Bond a cydweithiwr (2012) arbrawf ar annog pobl i bleidleisio. Nid yw'r arbrofion ddim yn cael sero cost newidiol, mae ganddynt sero gost amrywiol i ymchwilwyr. Er bod y gost o lawer o arbrofion hyn yn fach dros ben i bob cyfranogwr, costau bach a osodir gall nifer enfawr o gyfranogwyr adio i fyny yn gyflym. Ymchwilwyr yn rhedeg arbrofion ar-lein enfawr yn aml yn cyfiawnhau pwysigrwydd effeithiau bach driniaeth amcangyfrifir drwy ddweud y gall effeithiau bach hyn yn dod yn bwysig pan yn berthnasol i lawer o bobl. Mae'r un meddwl yn union yn berthnasol i gostau bod ymchwilwyr yn gosod ar gyfranogwyr. Os yw eich arbrofion yn achosi un miliwn o bobl i wastraff un funud, nid yw'r arbrawf yn niweidiol iawn i unrhyw berson penodol, ond gyda'i gilydd y mae wedi gwastraffu bron i ddwy flynedd o amser.

Dull arall i greu sero taliad cost amrywiol i gyfranogwyr yw defnyddio loteri, dull sy'n hefyd wedi cael ei ddefnyddio mewn ymchwil arolygon (Halpern et al. 2011) . Yn olaf, am fwy o wybodaeth am ddylunio pleserus defnyddiwr-profiadau gweld Toomim et al. (2011) .

  • Amnewid, Mireinio, a Lleihau (Adran 4.6.2)

Dyma ddiffiniadau gwreiddiol y tri R, o Russell and Burch (1959) :

"Replacement golygu'r lle'r ymwybodol byw anifeiliaid uwch o ddeunydd insentient. Gostyngiad yn golygu lleihad yn y nifer o anifeiliaid a ddefnyddir i gael gwybodaeth am swm penodol a manylder. Mireinio golygu unrhyw ostyngiad yn nifer yr achosion neu ddifrifoldeb weithdrefnau annynol cymhwyso i anifeiliaid hynny sydd yn dal i orfod cael eu defnyddio. "

Mae'r tri R a gynigiaf peidiwch drech na'r egwyddorion moesegol a ddisgrifir ym Mhennod 6. Yn hytrach, maent yn fersiwn mwy ymhelaethodd un o'r rhai egwyddorion-cymwynasgarwch-benodol ar gyfer y lleoliad yr arbrofion dynol.

Wrth ystyried Contagion Emosiynol, mae tri mater heb fod yn foesegol i gadw mewn cof wrth ddehongli'r arbrawf hwn. Yn gyntaf, nid yw'n glir sut y mae'r gwir manylion yr arbrawf gysylltu â'r honiadau damcaniaethol; mewn geiriau eraill, mae yna gwestiynau am ddilysrwydd lluniad. Nid yw'n glir bod y cyfrif geiriau cadarnhaol a negyddol mewn gwirionedd yn ddangosydd da o gyflwr emosiynol cyfranogwyr oherwydd 1) Nid yw'n glir bod y geiriau y mae pobl yn postio yn ddangosydd da o'u emosiynau a 2) nid yw'n glir bod y dechneg dadansoddi teimlad penodol y defnyddiodd yr ymchwilwyr yn gallu casglu emosiynau ddibynadwy (Beasley and Mason 2015; Panger 2016) . Mewn geiriau eraill, gallai fod yn fesur gwael o signal rhagfarnllyd. Yn ail, y dyluniad a'r dadansoddiad o'r arbrawf dweud unrhyw beth wrthym am bwy oedd fwyaf effeithio (hy, nid oes dadansoddiad o heterogenedd o effeithiau triniaeth) a'r hyn y gallai mecanwaith fod. Yn yr achos hwn, roedd gan yr ymchwilwyr lawer o wybodaeth am y cyfranogwyr, ond cawsant eu trin yn y bôn fel widgets yn y dadansoddiad. Yn drydydd, mae maint effaith yn yr arbrawf hwn yn fach iawn; y gwahaniaeth rhwng y driniaeth a rheoli cyflyrau tua 1 mewn 1,000 o eiriau. Yn eu papur, Kramer a chydweithwyr yn gwneud yr achos bod effaith o'r maint hwn yn bwysig gan fod cannoedd o filiynau o bobl yn cael mynediad i'w News Feed bob dydd. Mewn geiriau eraill, maent yn dadlau bod hyd yn oed effeithiau sy'n fach ar gyfer pob unigolyn y maent yn fawr gyda'i gilydd. Hyd yn oed pe baech yn derbyn y ddadl hon, nid yw'n dal i fod yn glir os effaith o'r maint hwn yn bwysig o ran y cwestiwn gwyddonol mwy cyffredinol am contagion emosiynol. Am fwy ar y sefyllfaoedd lle effeithiau bach yn bwysig gweld Prentice and Miller (1992) .

O ran y R cyntaf (Disodli), gan gymharu y Emosiynol Contagion arbrawf (Kramer, Guillory, and Hancock 2014) a'r contagion emosiynol arbrawf naturiol (Coviello et al. 2014) yn cynnig rhai gwersi cyffredinol am y cyfaddawdau sy'n ymwneud â symud o arbrofion i arbrofion naturiol (a dulliau eraill fel gyfateb bod ymgais i amcangyfrif arbrofion mewn data nad ydynt yn arbrofol, gweler Pennod 2). Yn ogystal â'r manteision moesegol, hefyd newid o arbrofol i astudiaethau nad ydynt yn arbrofol yn galluogi ymchwilwyr i astudio triniaethau eu bod yn yn logistaidd methu defnyddio. Mae'r manteision hyn moesegol a logistaidd yn dod ar gost, fodd bynnag. Gyda arbrofion naturiol ymchwilwyr lai o reolaeth dros bethau fel recriwtio cyfranogwyr, randomization, a natur y driniaeth. Er enghraifft, un cyfyngiad o lawiad fel triniaeth yw ei fod yn cynyddu ac yn lleihau positifrwydd negyddiaeth. Yn yr astudiaeth arbrofol, fodd bynnag, roedd Kramer a chydweithwyr gallu addasu positifrwydd a negyddol yn annibynnol.

Mae'r dull penodol a ddefnyddiwyd gan Coviello et al. (2014) Manylwyd ymhellach yn Coviello, Fowler, and Franceschetti (2014) . I gael cyflwyniad i newidynnau offerynnol gweld Angrist and Pischke (2009) (llai ffurfiol) neu Angrist, Imbens, and Rubin (1996) (mwy ffurfiol). Am arfarniad amheus o newidynnau offerynnol gweler Deaton (2010) , ac am gyflwyniad i newidynnau offerynnol gydag offerynnau gwan (glaw yn offeryn gwan), gweler Murray (2006) .

Yn fwy cyffredinol, cyflwyniad da i arbrofion naturiol yw Dunning (2012) , a Rosenbaum (2002) , Rosenbaum (2009) , a Shadish, Cook, and Campbell (2001) yn cynnig syniadau da am amcangyfrif effeithiau achosol heb arbrofion.

O ran yr ail R (Mireinio), mae yna gwyddonol a logistaidd cyfaddawdau wrth ystyried newid dyluniad Contagion Emosiynol rhag blocio swyddi i roi hwb i swyddi. Er enghraifft, gall fod yn wir bod y gweithrediad technegol y Feed Newyddion yn ei gwneud yn yn sylweddol haws gwneud arbrawf gyda blocio swyddi yn hytrach na arbrawf gyda hwb swyddi (nodi y gallai arbrawf gyda blocio swyddi yn cael eu gweithredu fel haen ar ben y system Newyddion Feed heb unrhyw angen am addasiadau o'r system sylfaenol). Yn wyddonol, fodd bynnag, mae'r ddamcaniaeth sylw gan yr arbrawf nid oedd yn awgrymu amlwg yn un dylunio dros y llall.

Yn anffodus, nid wyf yn ymwybodol o ymchwil blaenorol sylweddol ynghylch rhinweddau cymharol o flocio a rhoi hwb cynnwys yn y Feed News. Hefyd, nid wyf wedi gweld llawer o ymchwil ynglŷn â mireinio triniaethau i'w gwneud yn llai niweidiol; un eithriad yw Jones and Feamster (2015) , sy'n ystyried achos fesur sensoriaeth Rhyngrwyd (bwnc yr wyf yn trafod ym Mhennod 6 yn berthynas i'r astudiaeth Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

O ran y trydydd R (Gostyngiad), cyflwyniad da i ddadansoddi pŵer traddodiadol yw Cohen (1988) . Gall covariates Cyn-driniaeth yn cael ei gynnwys yn y cam dylunio a'r cam dadansoddi arbrofion; Pennod 4 o Gerber and Green (2012) yn darparu cyflwyniad da i'r ddwy ymagwedd, a Casella (2008) yn rhoi triniaeth fwy manwl. Technegau sy'n defnyddio hyn wybodaeth cyn triniaeth yn y randomization yn cael eu galw fel arfer naill ai blocio dyluniadau arbrofol neu ddyluniadau arbrofol haenedig (nid y derminoleg yn cael ei ddefnyddio'n gyson ar draws cymunedau); technegau hyn yn gysylltiedig ddwfn i dechnegau samplu haenedig a drafodwyd ym Mhennod 3. Gweler Higgins, Sävje, and Sekhon (2016) am fwy ar ddefnyddio dyluniadau hyn mewn arbrofion enfawr. Gall covariates Cyn-driniaeth hefyd yn cael eu cynnwys yn y cam dadansoddi. McKenzie (2012) yn edrych ar y dull gwahaniaeth-yng-gwahaniaethau i ddadansoddi arbrofion maes yn fanylach. Gweler Carneiro, Lee, and Wilhelm (2016) am fwy ar y cyfaddawdau rhwng dulliau gwahanol i gynyddu cywirdeb mewn amcangyfrifon o effeithiau triniaeth. Yn olaf, wrth benderfynu a ddylid ceisio cynnwys covariates cyn-driniaeth ar y cam dylunio neu ddadansoddi (neu'r ddau), mae yna ychydig o ffactorau i'w hystyried. Mewn sefyllfa lle mae ymchwilwyr yn awyddus i ddangos nad ydynt yn "pysgota" (Humphreys, Sierra, and Windt 2013) , gan ddefnyddio covariates cyn-driniaeth yn y cam dylunio a all fod o gymorth (Higgins, Sävje, and Sekhon 2016) . Mewn sefyllfaoedd lle mae cyfranogwyr yn cyrraedd yn ddilyniannol, arbrofion maes yn enwedig ar-lein, gan ddefnyddio gwybodaeth cyn-driniaeth yn y cam dylunio a all fod yn anodd logistaidd, gweler er enghraifft Xie and Aurisset (2016) .

Mae'n werth ychwanegu ychydig o greddf ynghylch pam y gall gwahaniaeth-yng-gwahaniaethau fod yn gymaint yn fwy effeithiol na wahaniaeth-yng-ddulliau. Llawer o ganlyniadau ar-lein yn cael amrywiant uchel iawn (gweler, ee, Lewis and Rao (2015) a Lamb et al. (2015) ) ac yn gymharol sefydlog dros amser. Yn yr achos hwn, bydd y sgôr newid yn cael amrywiad yn sylweddol llai, cynyddu grym y prawf ystadegol. Un rheswm nad yw'n cael ei ddefnyddio yn fwy aml, mae hyn yn cysylltu yw nad yw cyn yr oes ddigidol oedd yn gyffredin i gael canlyniadau cyn-driniaeth. Mae ffordd fwy pendant i feddwl am y peth yw dychmygu arbrawf i fesur a yw trefn ymarfer corff penodol yn achosi colli pwysau. Os byddwch yn gwneud ymagwedd gwahaniaeth-yng-modd, bydd eich amcangyfrif cael amrywioldeb a ddaw o'r amrywioldeb mewn pwysau yn y boblogaeth. Os byddwch yn gwneud ymagwedd gwahaniaeth-yn-gwahaniaeth, fodd bynnag, fod amrywiad sy'n digwydd yn naturiol mewn pwysau yn cael ei dynnu a gallwch haws canfod gwahaniaeth a achoswyd gan y driniaeth.

Un ffordd bwysig o leihau'r nifer o gyfranogwyr yn eich arbrawf yw cynnal dadansoddiad pŵer, a allai Kramer a chydweithwyr wedi gwneud yn seiliedig ar y meintiau effaith a welwyd o'r arbrawf naturiol drwy Coviello et al. (2014) neu ymchwil heb fod yn arbrofol cynharach gan Kramer (2012) (mewn gwirionedd mae'r rhain yn weithgareddau ar ddiwedd y bennod hon). Sylwch fod y defnydd hwn o ddadansoddi pŵer yn ychydig yn wahanol na nodweddiadol. Yn yr oes analog, ymchwilwyr yn gyffredinol wnaeth dadansoddiad pŵer i wneud yn siŵr nad yw eu hastudiaeth yn rhy fach (hy, dan-powered). Yn awr, fodd bynnag, dylai ymchwilwyr wneud dadansoddiad pŵer i wneud yn siŵr nad yw eu hastudiaeth yn rhy fawr (hy, gor-powered).

Yn olaf, yr wyf yn ei ystyried ychwanegu pedwerydd R: repurpose. Hynny yw, os yw ymchwilwyr yn eu cael eu hunain gyda data mwy arbrofol nag sydd ei angen i roi sylw i'w cwestiwn ymchwil gwreiddiol, dylent repurpose data i ofyn cwestiynau newydd. Er enghraifft, dychmygwch fod Kramer a chydweithwyr wedi defnyddio Amcangyfrif gwahaniaeth-yng-gwahaniaethau ac yn canfod eu hunain gyda mwy o ddata nag sydd ei angen i fynd i'r afael â'u cwestiwn ymchwil. Yn hytrach na pheidio defnyddio'r data i'r graddau llawnaf, gallent fod wedi astudio maint yr effaith fel swyddogaeth i cyn-driniaeth mynegiant emosiynol. Yn union fel Schultz et al. (2007) fod effaith y driniaeth yn wahanol ar gyfer ysgafn a thrwm ddefnyddwyr, efallai effeithiau'r Feed Newyddion yn wahanol i bobl sydd eisoes yn tueddu i negeseuon hapus (neu drist) bostio. Roi pwrpas Gallai arwain at "pysgota" (Humphreys, Sierra, and Windt 2013) a "p-hacio" (Simmons, Nelson, and Simonsohn 2011) , ond mae'r rhain yn gyfeiriedig i raddau helaeth gyda chyfuniad o adrodd yn onest (Simmons, Nelson, and Simonsohn 2011) , cyn-gofrestru (Humphreys, Sierra, and Windt 2013) , a dulliau dysgu peiriant sy'n ceisio osgoi gor-ffitio.