далей каментары

Гэты пераклад быў створаны з дапамогай кампутара. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

далей каментары

Гэты падзел прызначаны для выкарыстання ў якасці эталона, замест таго , каб быць прачытаны як аповяд.

Ўвядзенне (раздел 4.1)

Пытанні аб прычыннасці ў сацыяльных даследаваннях часта з'яўляюцца складанымі і заблытанымі. Для асноватворнага падыходу да прычыннасці на аснове прычынна - следчых графікаў, см Pearl (2009) , а таксама для асноватворнага падыходу , заснаванага на патэнцыйных вынікаў, гл Imbens and Rubin (2015) (і тэхнічнае прыкладанне ў гэтай частцы). Для параўнання паміж гэтымі двума падыходамі см Morgan and Winship (2014) . Для фармальнага падыходу да вызначэння confounder см VanderWeele and Shpitser (2013) .

У гэтай частцы, я стварыў тое, што, здавалася, як яркая лінія паміж нашай здольнасцю зрабіць прычынныя ацэнкі з эксперыментальных і ня эксперыментальных дадзеных. На самай справе, я думаю, што гэта адрозненне размытая. Напрыклад, кожны прызнае, што курэнне выклікае рак, нават калі мы ніколі не рабілі рандомізірованное кантраляванае эксперымент, які прымушае людзей паліць. Для атрымання выдатных апрацовак даўжыні кнігі па падрыхтоўцы адзнак прычынныя з неэкспериментальных дадзеных см Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) і Dunning (2012) .

Кіраўніка 1 і 2 Freedman, Pisani, and Purves (2007) прапануюць дакладнае ўвядзенне ў адрозненнях паміж эксперыментамі, якія кантралююцца эксперыментаў, і рандомізірованный кантраляваных эксперыментаў.

Manzi (2012) забяспечвае захапляльнае і чытаны ўвядзенне ў філасофскіх і статыстычных асноў рандомізірованный кантраляваных эксперыментаў. Ён таксама дае цікавыя прыклады сілы эксперыментаў ў бізнэсе ў рэальным свеце.

Якія эксперыменты? (Раздзел 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) забяспечваюць добрыя ўвядзення да статыстычных аспектах эксперыментальнага праектавання і аналізу. Акрамя таго, ёсць выдатныя метады лячэння з выкарыстаннем эксперыментаў ў многіх розных галінах: эканоміка (Bardsley et al. 2009) і (Willer and Walker 2007; Jackson and Cox 2013) (Aronson et al. 1989) (Morton and Williams 2010) (Bardsley et al. 2009) , Сацыялогія (Willer and Walker 2007; Jackson and Cox 2013) , псіхалогіі (Aronson et al. 1989) і (Aronson et al. 1989) , (Aronson et al. 1989) , паліталогія (Morton and Williams 2010) , і сацыяльная палітыка (Glennerster and Takavarasha 2013) .

Важнасць набору ўдзельнікаў (напрыклад, выбаркі) часта недаацэньваюць ў эксперыментальных даследаваннях. Аднак, калі эфект лячэння неаднастайны ў папуляцыі, то выбарка мае вырашальнае значэнне. Longford (1999) робіць гэтую кропку ясна , калі ён выступае для даследчыкаў , якія думаюць эксперыментаў як абследавання насельніцтва з бессістэмнай выбаркі.

Два вымярэння эксперыментаў: лабараторнага поля і аналога-лічбавыя (раздел 4.3)

Дыхатаміі, што я прадставіў паміж лабараторных і палявых эксперыментаў трохі спрашчаецца. На самай справе, іншыя даследчыкі прапанавалі больш дэталёвыя тыпалогій, у прыватнасці тыя , якія аддзяляюць розныя формы палявых эксперыментаў (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) г. (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Акрамя таго, існуюць два іншых тыпу эксперыментаў , праведзеных сацыёлагамі , якія не ўпісваюцца ў лабараторыі і палявых дыхатаміі :. Эксперыменты і даследаванні сацыяльных эксперыментаў Эксперыменты на апытанне эксперыменты з выкарыстаннем інфраструктуры існуючых абследаванняў і параўнаць адказы на альтэрнатыўныя версіях тыя ж пытанні (некаторыя эксперыменты апытання прадстаўлены ў раздзеле 3); Больш падрабязную інфармацыю аб эксперыментах апытання см Mutz (2011) . Сацыяльныя эксперыменты эксперыменты , дзе лячэнне з'яўляецца некаторая сацыяльная палітыка , якая можа быць рэалізавана толькі з дапамогай ўрада. Сацыяльныя эксперыменты цесна звязаны з ацэнкай праграм. Больш падрабязную інфармацыю аб эксперыментах палітыкі см Orr (1998) , Glennerster and Takavarasha (2013) і Heckman and Smith (1995) .

Шэраг работ параўналі лабараторныя і палявыя эксперыменты ў абстрактным (Falk and Heckman 2009; Cialdini 2009) і з пункту гледжання вынікаў канкрэтных эксперыментаў у галіне паліталогіі (Coppock and Green 2015) , эканомікі (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) і псіхалогіі (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) прапануе добры дызайн даследаванні для параўнання вынікаў лабараторных і палявых эксперыментаў.

Асцярогі па нагоды удзельнікаў змяніць свае паводзіны , таму што яны ведаюць , што яны пільна назіраюць часам называюць эфекты попыту, і яны былі вывучаны ў псіхалогіі (Orne 1962) і эканоміка (Zizzo 2009) . Хоць у асноўным звязаныя з лабараторнымі эксперыментамі, гэтыя ж пытанні могуць выклікаць праблемы для палявых эксперыментаў, а таксама. На самай справе, эфекты попыту таксама часам называюць Hawthorne эфекты, тэрмін, вытворны ад палявога эксперыменту, у прыватнасці , знакамітыя эксперыменты асвятлення , якія пачаліся ў 1924 годзе ў Hawthorne Works Заходняй Electric Company (Adair 1984; Levitt and List 2011) , (Adair 1984; Levitt and List 2011) . Абодва эфекту попыту і эфекты Глог цесна звязаны з ідэяй вымярэння рэактыўнай абмяркоўваецца ў чале 2 (гл таксама Webb et al. (1966) і Webb et al. (1966) ).

Гісторыя палявых эксперыментаў была апісана ў эканоміцы (Levitt and List 2009) , паліталогіі (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) і (Shadish 2002) (Shadish and Cook 2009) (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , псіхалогіі (Shadish 2002) , і дзяржаўная палітыка (Shadish and Cook 2009) . Адной з абласцей сацыяльных навук, дзе палявыя эксперыменты хутка стала вядомай з іх з'яўляецца міжнароднае развіццё. Для станоўчага разгляду гэтай працы ў эканоміцы см Banerjee and Duflo (2009) , а таксама для крытычнай ацэнкі см Deaton (2010) . Для агляду гэтай працы ў палітычнай навуцы см Humphreys and Weinstein (2009) . І, нарэшце, этычныя праблемы , звязаныя з эксперыментамі на месцах, былі даследаваны ў палітычнай навуцы (Humphreys 2015; Desposato 2016b) і эканомікі развіцця (Baele 2013) .

У гэтай частцы, я выказаў здагадку , што інфармацыя для папярэдняй апрацоўкі могуць быць выкарыстаны для павышэння дакладнасці ацэненых эфектаў лячэння, але ёсць некаторыя дэбаты па нагоды такога падыходу: Freedman (2008) , Lin (2013) , і Berk et al. (2013) і Berk et al. (2013) г. Berk et al. (2013) ; см Bloniarz et al. (2016) і Bloniarz et al. (2016) для атрымання дадатковай інфармацыі.

Выходзячы за рамкі простых эксперыментаў (раздел 4.4)

Я вырашыў засяродзіцца на трох паняццях: рэчаіснасці, неаднастайнасць эфектаў лячэння, а таксама механізмаў. Гэтыя паняцці маюць розныя назвы ў розных галінах. Напрыклад, псіхолагі імкнуцца выйсці за рамкі простых эксперыментаў, засяродзіўшы ўвагу на пасярэднікаў і мадэратараў (Baron and Kenny 1986) . Ідэя медыятараў захопліваецца, што я называю механізмы, і ідэя мадэратараў захопліваецца, што я называю знешняя валіднасць (напрыклад, будуць вынікі эксперыменту інакш, калі б ён быў запушчаны ў розных сітуацыях) і гетэрагеннасць эфектаў лячэння ( напрыклад, з'яўляюцца эфекты больш для некаторых людзей, чым іншыя людзі).

Эксперымент Schultz et al. (2007) і Schultz et al. (2007) паказвае , як сацыяльныя тэорыі могуць быць выкарыстаны для распрацоўкі эфектыўных мер. Для больш агульнага аргументу пра ролю тэорыі ў распрацоўцы эфектыўных мер, см Walton (2014) .

Тэрмін дзеяння (раздел 4.4.1)

Паняцці ўнутранага і знешняга дзеяння былі ўпершыню ўведзены ў Campbell (1957) . См Shadish, Cook, and Campbell (2001) для больш падрабязнай гісторыі і дбайнай распрацоўкі статыстычнага вываду рэчаіснасці, унутранай рэчаіснасці, пабудаваць рэчаіснасць, і знешнюю рэчаіснасць.

Для агляду пытанняў , звязаных з высновай статыстычнай верагоднасці ў эксперыментах см Gerber and Green (2012) (для пункту гледжання сацыяльнай навукі) і Imbens and Rubin (2015) (для пункту гледжання статыстыкі). Некаторыя пытанні статыстычнага вываду рэчаіснасці , якія ўзнікаюць менавіта ў эксперыментах онлайн - палявых ўключаюць у сябе такія пытанні, як вылічальная эфектыўных метадаў для стварэння даверных інтэрвалаў з залежнымі дадзенымі (Bakshy and Eckles 2013) г. (Bakshy and Eckles 2013) .

Ўнутраная дакладнасць можа быць цяжка забяспечыць у складаных палявых эксперыментаў. Глядзіце, напрыклад, Gerber and Green (2000) , Imai (2005) , і Gerber and Green (2005) для дыскусіі аб рэалізацыі комплекснага палявога эксперыменту аб галасаванні. Kohavi et al. (2012) і Kohavi et al. (2012) і Kohavi et al. (2013) і Kohavi et al. (2013) забяспечыць ўвядзенне ў выклікі інтэрвалу дзеянні ў эксперыментах онлайн на месцах.

Адна з асноўных праблем з унутранага рэчаіснасці з'яўляюцца праблемы з рандомизации. Адзін са спосабаў выявіць патэнцыйна праблемы з рандомизации з'яўляецца параўнанне лячэння і кантрольныя групы назіраных прыкмет. Такога роду параўнання называецца праверка балансу. См Hansen and Bowers (2008) для статыстычнага падыходу , каб збалансаваць праверкі, і ўбачыць Mutz and Pemantle (2015) для боязі па нагоды праверкі балансу. Напрыклад, з дапамогай балансу праверыць Allcott (2011) выявілі , што ёсць некаторыя доказы таго, што рандомизация не была рэалізаваная правільна ў трох эксперыментах , у некаторых эксперыментах Оповер (глядзі табліцу 2; сайты , 2, 6 і 8). Што тычыцца іншых падыходаў см Imbens and Rubin (2015) , кіраўнік 21.

Іншыя асноўныя праблемы, звязаныя з унутранай рэчаіснасці з'яўляюцца: 1) аднабаковы невыкананнем, дзе не ўсё ў групе лячэння на самай справе атрымлівалі лячэнне, 2) Уцяпляльнікі невыканання, дзе не ўсё ў групе лячэння атрымлівае лячэнне і некаторыя людзі ў кантрольнай групе атрымліваюць лячэнне, 3) знясіленне, дзе вынікі не вымяраюцца для некаторых удзельнікаў, і 4) інтэрферэнцыя, дзе лячэнне разліваецца на працягу ад людзей у стане лячэння людзям у стане кіравання. См Gerber and Green (2012) Кіраўнікі 5, 6, 7 і 8 больш па кожным з гэтых пытанняў.

Больш падрабязную інфармацыю аб валіднасці см Westen and Rosenthal (2003) , і больш на валіднасці ў вялікіх крыніцах дадзеных, Lazer (2015) і ў чале 2 гэтай кнігі.

Адным з аспектаў знешняй рэчаіснасці з'яўляецца ўстаноўка , дзе правяраецца ўмяшанне. Allcott (2015) забяспечвае дбайную тэарэтычную і эмпірычную лячэнне зрушэння выбару пляцоўкі. Гэтае пытанне таксама абмяркоўваецца ў Deaton (2010) . У дадатак да тыражуецца ў многіх месцах, ўмяшанне Home Energy Report таксама быў вывучаны незалежна адзін ад аднаго некалькімі даследчымі групамі (напрыклад, Ayres, Raseman, and Shih (2013) ).

Неаднароднасць эфектаў лячэння (раздел 4.4.2)

Грунтоўны агляд гетэрагеннасць эфектаў лячэння ў палявых эксперыментах, глядзіце раздзел 12 Gerber and Green (2012) . Для ўвядзення гетэрагеннасць эфектаў лячэння ў медыцынскіх даследаваннях, см Kent and Hayward (2007) , Longford (1999) , і Kravitz, Duan, and Braslow (2004) . Неаднароднасць эфектаў лячэння як правіла, сканцэнтраваны на адрозненнях, заснаваных на характарыстыках папярэдняй апрацоўкі. Калі вы зацікаўлены ў гетэрагеннасць , заснаваныя на выніках пасля лячэння, а затым больш складаныя approachs патрэбныя такія , як галоўная распластоўванне (Frangakis and Rubin 2002) , (Frangakis and Rubin 2002) ; см Page et al. (2015) і Page et al. (2015) для агляду.

Многія даследчыкі ацэньваюць гетэрагеннасць эфектаў лячэння з выкарыстаннем лінейнай рэгрэсіі, але больш новыя метады заснаваныя на машынным навучанні, напрыклад , Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) і Taddy et al. (2016) , і Athey and Imbens (2016a) .

Існуе некаторы скептыцызм па нагоды высноў гетэрагеннасць эфектаў з - за шматлікіх праблем параўнання і "рыбалка." Ёсць цэлы шэраг статыстычных падыходаў , якія могуць дапамагчы ў вырашэнні праблем па нагоды множнага параўнання (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Адзін з падыходаў да заклапочанасці па нагоды "промыслу" з'яўляецца папярэдняя рэгістрацыя, якая становіцца ўсё больш распаўсюджаным з'явай у псіхалогіі (Nosek and Lakens 2014) , паліталогія (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) і эканоміка (Olken 2015) .

У даследаванні Costa and Kahn (2013) толькі каля паловы хатніх гаспадарак у эксперыменце маглі быць звязаныя з дэмаграфічнай інфармацыі. Чытачы, зацікаўленыя ў дэталях і магчымых праблемах з гэтым аналізам варта звярнуцца да арыгінальнай працы.

Механізмы (раздел 4.4.3)

Механізмы неверагодна важныя, але яны аказваюцца вельмі цяжка вучыцца. Даследаванні пра механізмы цесна звязана з вывучэннем медыятараў ў псіхалогіі (але глядзі таксама VanderWeele (2009) для дакладнага параўнання паміж гэтымі двума ідэямі). Статыстычныя падыходы да пошуку механізмаў, такіх , як падыход , распрацаваны ў Baron and Kenny (1986) , з'яўляюцца даволі распаўсюджанай з'явай. На жаль, атрымліваецца, што гэтыя працэдуры залежаць ад некаторых моцных дапушчэнняў (Bullock, Green, and Ha 2010) і пакутаваць , калі існуе некалькі механізмаў, як можна было б чакаць , у многіх сітуацыях (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) і Imai and Yamamoto (2013) прапануюць некаторыя палепшаныя статыстычныя метады. Акрамя таго, VanderWeele (2015) прапануе лячэнне кніжнай даўжыні з цэлым шэрагам важных вынікаў, у тым ліку комплексны падыход да аналізу адчувальнасці.

Асобны падыход арыентаваны на эксперыменты, якія спрабуюць маніпуляваць механізмам непасрэдна (напрыклад, даючы матросы вітамін С). На жаль, у многіх сітуацыях сацыяльных навук часта ёсць некалькі механізмаў, і гэта цяжка распрацаваць працэдуры, якія змяняюць адзін, не змяняючы астатніх. Некаторыя падыходы да эксперыментальна змяняюць механізмы апісаны ў Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , і Pirlott and MacKinnon (2016) .

І, нарэшце, механізмы таксама маюць даўнюю гісторыю ў філасофіі навукі , як апісана Hedström and Ylikoski (2010) .

Выкарыстанне існуючых асяроддзяў (раздзел 4.5.1.1)

Больш падрабязную інфармацыю аб выкарыстанні завочнага навучання і даследаванняў аўдыту для вымярэння дыскрымінацыі см Pager (2007) .

Стварыце свой уласны эксперымент (раздел 4.5.1.2)

Самы распаўсюджаны спосаб набраць удзельнікаў эксперыментаў, якія вы будуеце з'яўляецца Amazon Mechanical Turk (MTurk). Паколькі MTurk пераймае аспекты традыцыйных лабараторных эксперыментаў высокааплатную людзей для выканання задач, якія яны не маглі б зрабіць для свабодна многіх даследчыкаў ўжо пачалі выкарыстоўваць Turkers (рабочыя на MTurk) у якасці ўдзельнікаў у чалавечых суб'ектаў эксперыментаў прыводзіць да больш хуткай і таннай збору дадзеных, чым традыцыйныя на кампусе лабараторныя эксперыменты (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Самая вялікая сіла эксперыментаў з удзельнікамі, набраных з MTurk з'яўляюцца матэрыяльна-тэхнічнае: яны дазваляюць даследчыкам набіраць удзельнікаў хутка і па меры неабходнасці. У той час як лабараторныя эксперыменты могуць заняць некалькі тыдняў, каб запусціць і палявыя эксперыменты могуць заняць некалькі месяцаў, каб ўстаноўка, эксперыменты з удзельнікамі, набраных з MTurk можа быць запушчаны ў днях. Напрыклад, Berinsky, Huber, and Lenz (2012) змаглі набраць 400 прадметаў у адзін дзень , каб прыняць удзел у 8 - й хвіліне эксперыменту. Акрамя таго, гэтыя ўдзельнікі могуць быць прыцягнутыя практычна для любых мэт (у тым ліку абследаванняў і масавага супрацоўніцтва, як гэта абмяркоўваецца ў главах 3 і 5). Гэтая прастата набору азначае, што даследчыкі могуць праводзіць паслядоўнасці узаемазвязаных эксперыментаў у хуткай паслядоўнасці.

Перад тым як набор удзельнікаў з MTurk для ўласных эксперыментаў, ёсць чатыры важныя рэчы, якія неабходна ведаць. Па-першае, многія даследчыкі маюць неспецыфічную скепсіс эксперыментаў з удзелам Turkers. Паколькі гэты скептыцызм не з'яўляецца спецыфічным, цяжка супрацьстаяць з доказамі. Тым не менш, пасля некалькіх гадоў даследаванняў з выкарыстаннем Turkers, зараз мы можам зрабіць выснову, што гэты скепсіс не асабліва патрэбна. Там было шмат даследаванняў, параўноўваць дэмаграфію Turkers на іншыя групы насельніцтва і шматлікіх даследаванняў, параўноўваць вынікі эксперыментаў з Turkers з вынікамі іншых груп насельніцтва. Улічваючы ўсю гэтую працу, я думаю , што лепшы спосаб для вас , каб думаць пра гэта з'яўляецца тое , што Turkers з'яўляюцца разумнымі ўзор выгоды, так жа, як студэнтаў , але трохі больш разнастайным (Berinsky, Huber, and Lenz 2012) . Такім чынам, гэтак жа, як студэнты разумнае насельніцтва для некаторых, але не ўсе эксперыментальныя даследаванні, Turkers з'яўляюцца разумнае насельніцтва для некаторых, але не ўсе даследаванні. Калі вы збіраецеся працаваць з Turkers, то мае сэнс прачытаць многія з гэтых параўнальных даследаванняў і зразумець свае нюансы.

Ва- другое, даследчыкі распрацавалі перадавой практыкі для павышэння ўнутранай валіднасці эксперыментаў туркаў, і вы павінны вывучыць і прытрымлівацца гэтым перадавой практыкі (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Напрыклад, даследчыкі , якія выкарыстоўваюць Turkers рэкамендуецца выкарыстоўваць грукат для выдалення няўважлівых удзельнікаў (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (Глядзі таксама DJ Hauser and Schwarz (2015b) і DJ Hauser and Schwarz (2015a) ). Калі вы не выдаліць няўважлівых удзельнікаў, то любы эфект лячэння можа быць вымываюцца шуму, які паступае з няўважлівых удзельнікаў, так і на практыцы колькасць няўважлівых удзельнікаў можа быць істотным. У эксперыменце Хубер і яго калегі (2012) каля 30% удзельнікаў не атрымалася асноўная ўвага грукатам. Яшчэ адна агульная праблема з Turkers не з'яўляецца наіўных удзельнікаў (Chandler et al. 2015) і (Chandler et al. 2015) .

В- трэцяе, па параўнанні з некаторымі іншымі формамі лічбавых эксперыментаў, MTurk эксперыменты не могуць маштабавацца, Stewart et al. (2015) і Stewart et al. (2015) лічыць , што ў любы момант часу існуе ўсяго каля 7000 чалавек на MTurk.

І, нарэшце, вы павінны ведаць , што MTurk гэта супольнасць са сваімі ўласнымі правіламі і нормамі (Mason and Suri 2012) . Такім жа чынам , што вы спрабуеце даведацца пра культуру краіны , у якой вы збіраецеся запускаць вашыя эксперыменты, вы павінны паспрабаваць , каб даведацца больш пра культуру і нормах Turkers (Salehi et al. 2015) і (Salehi et al. 2015) . І, вы павінны ведаць , што Turkers будзе казаць аб вашым вопыце , калі вы робіце што - то недарэчнае або неэтычных (Gray et al. 2016) і (Gray et al. 2016) .

MTurk з'яўляецца неверагодна зручны спосаб набору ўдзельнікаў для вашых эксперыментаў, ці з'яўляюцца яны лабараторнага тыпу, такія як Huber, Hill, and Lenz (2012) , ці больш у палявых умовах, як, напрыклад , як Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) і Goldstein et al. (2014) , Horton and Zeckhauser (2016) , і Mao et al. (2016) і Mao et al. (2016) .

Стварыце свой уласны прадукт (раздел 4.5.1.3)

Калі вы думаеце пра спробу стварыць свой уласны прадукт, я рэкамендую вам прачытаць парады , прапанаваныя групай MovieLens ў Harper and Konstan (2015) . Ключавым азораныя з іх вопыту ў тым, што для кожнага паспяховага праекта ёсць шмат, шмат няўдач. Напрыклад, група MovieLens запусціла іншыя прадукты , такія , як GopherAnswers , якія былі поўныя правалы (Harper and Konstan 2015) . Іншы прыклад даследчыка няспраўнага пры спробе стварыць прадукт з'яўляецца спроба Эдварда Кастронова, каб стварыць інтэрнэт-гульню пад назвай Arden. Нягледзячы на $ 250 000 у фінансаванні, праект быў правал (Baker 2008) . Такія праекты, як GopherAnswers і Ардэна, на жаль, значна часцей, чым такія праекты, як MovieLens. І, нарэшце, калі я сказаў, што я не ведаў аб якіх-небудзь іншых даследчыкаў, якія паспяхова пабудавалі прадукты для паўторных эксперыментаў тут мае крытэры: 1) удзельнікі выкарыстоўваюць прадукт з-за таго, што ён дае ім (напрыклад, яны не плацяць, і яны не з'яўляюцца добраахвотнікі дапамагаюць навуцы) і 2) прадукт быў выкарыстаны для больш чым аднаго асобнага эксперыменту (гэта значыць не той жа самы эксперымент некалькі разоў з рознымі пулами удзельнікам). Калі вы ведаеце іншыя прыклады, калі ласка, дайце мне ведаць.

Партнёр з магутным (раздел 4.5.2)

Я чуў ідэю Quadrant Пастера часта абмяркоўваецца ў тэхналагічных кампаній, і гэта дапамагае арганізаваць навукова - даследчую працу ў Google (Spector, Norvig, and Petrov 2012) .

Бонд і даследаванне калегаў (2012) таксама спрабуе выявіць уплыў гэтых апрацовак на сяброў тых , хто атрымаў іх. З-за канструкцыі эксперыменту, гэтыя другасныя эфекты цяжка выявіць чыстае; Зацікаўленыя чытачы павінны ўбачыць Bond et al. (2012) і Bond et al. (2012) для больш падрабязнага абмеркавання. Гэты эксперымент з'яўляецца часткай даўняй традыцыі эксперыментаў у галіне палітычнай навукі пра высілкі па заахвочванню галасавання (Green and Gerber 2015) . Гэтыя эксперыменты Get-па-за-The-галасавання з'яўляюцца агульнымі збольшага таму, што яны знаходзяцца ў квадранце Пастера. Гэта значыць, ёсць шмат людзей, якія матываваныя, каб павялічыць галасавання і галасавання можа быць цікавым паводзінамі, каб праверыць больш агульныя тэорыі аб змене паводзін і сацыяльнага ўплыву.

Іншыя даследчыкі далі кансультацыі аб правядзенні эксперыментаў на месцах з партнёрскімі арганізацыямі , такімі , як палітычныя партыі, НДА і бізнэсу (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Іншыя прапаноўвалі парады аб тым , як партнёрскія адносіны з арганізацыямі , могуць паўплываць на даследчыя праекты (Green, Calfano, and Aronow 2014; King et al. 2007) і (Green, Calfano, and Aronow 2014; King et al. 2007) . Партнёрства можа таксама прывесці да этычных пытаннях (Humphreys 2015; Nickerson and Hyde 2016) .

Дызайн парады (раздел 4.6)

Калі вы збіраецеся стварыць план аналізу перад запускам эксперыменту, я прапаную вам пачаць з чытання кіруючых прынцыпаў прадстаўлення дакладаў. Консорт (зводны стандарт справаздачнасць выпрабаванняў) кіруючых прынцыпаў былі распрацаваны ў медыцыне (Schulz et al. 2010) і (Mayo-Wilson et al. 2013) (Schulz et al. 2010) і мадыфікаваны для сацыяльных даследаванняў (Mayo-Wilson et al. 2013) і (Mayo-Wilson et al. 2013) . Звязаны набор кіруючых прынцыпаў была распрацавана рэдактарамі часопіса эксперыментальнай паліталогіі (Gerber et al. 2014) і Mutz and Pemantle (2015) Gerber et al. (2015) (Gerber et al. 2014) (гл таксама Mutz and Pemantle (2015) і Gerber et al. (2015) і Gerber et al. (2015) ). І, нарэшце, кіруючыя прынцыпы справаздачнасці былі распрацаваны ў псіхалогіі (Group 2008) , а таксама ўбачыць Simmons, Nelson, and Simonsohn (2011) .

Калі вы ствараеце план аналізу вы павінны разгледзець перад яго рэгістрацыяй, так як папярэдняя рэгістрацыя павялічыць упэўненасць, што іншыя маюць у сваіх выніках. Акрамя таго, калі вы працуеце з партнёрам, ён будзе абмяжоўваць здольнасць вашага партнёра, каб змяніць аналіз пасля прагляду вынікаў. Папярэдняя рэгістрацыя становіцца ўсё больш распаўсюджаным з'явай у псіхалогіі (Nosek and Lakens 2014) , паліталогія (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , і эканоміка (Olken 2015) .

Ствараючы свой план папярэдняга аналізу вы павінны ведаць , што некаторыя даследчыкі таксама выкарыстоўваюць рэгрэсію і звязаныя з ім падыходы для павышэння дакладнасці ацэненага эфекту лячэння, і ёсць некаторыя дэбаты па нагоды такога падыходу: Freedman (2008) , Lin (2013) , і Berk et al. (2013) і Berk et al. (2013) г. Berk et al. (2013) ; см Bloniarz et al. (2016) і Bloniarz et al. (2016) для атрымання дадатковай інфармацыі.

Дызайн парады спецыяльна для эксперыментаў онлайн на месцах таксама прадстаўлены ў Konstan and Chen (2007) і Chen and Konstan (2015) .

Стварэнне нулявых зменных дадзеных аб выдатках (раздел 4.6.1)

Больш падрабязную інфармацыю аб эксперыментах MusicLab см Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) і Salganik (2007) . Больш падрабязную інфармацыю аб пераможца атрымлівае ўсе рынкі, см Frank and Cook (1996) . Больш падрабязную інфармацыю аб разблытванне поспеху і майстэрства ў больш агульным плане , см Mauboussin (2012) , Watts (2012) і Frank (2016) .

Існуе іншы падыход да ўстаранення выплат ўдзельніку, даследчыкі павінны выкарыстоўваць з асцярожнасцю: прызыў на ваенную службу. У многіх эксперыментах онлайн палявых ўдзельнікі не ў асноўным распрацаваны ў эксперыменты і ніколі не кампенсуюцца. Прыклады гэтага падыходу ўключаюць Restivo і ван дэ Rijt ў (2012) эксперымент на ўзнагароды ў Вікіпедыі і Бонд і калегі (2012) эксперымент па падахвочваючы людзей галасаваць. Гэтыя эксперыменты сапраўды не маюць нулявы зменныя выдаткі, яны маюць нулявы зменныя выдаткі для даследчыкаў. Нягледзячы на тое, кошт многіх з гэтых досведаў вельмі малая кожнаму ўдзельніку, невялікія выдаткі на накладзена велізарная колькасць удзельнікаў можа скласці хутка. Даследчыкі, якія працуюць онлайн-масавыя эксперыменты часта апраўдваюць важнасць невялікіх разліковымі эфектаў лячэння, кажучы, што гэтыя малыя эфекты могуць стаць важным пры ўжыванні да многіх людзям. Дакладна такая ж мысленне ставіцца да выдаткаў, якія даследчыкі накладаюць на ўдзельнікаў. Калі вашы эксперыменты выклікае адзін мільён людзей марнаваць адну хвіліну, эксперымент не вельмі шкодна для любога канкрэтнага чалавека, але ў сукупнасці ён выдаткаваў амаль два гады часу.

Іншы падыход да стварэння нулявы аплаты зменных выдаткаў для ўдзельнікаў выкарыстоўваць латарэю, падыход , які таксама быў выкарыстаны ў даследаваннях абследавання (Halpern et al. 2011) і (Halpern et al. 2011) . Нарэшце, для больш аб распрацоўцы прыемных прыстасаваныя ўражанні см Toomim et al. (2011) і Toomim et al. (2011) .

Замяніць, пошуку і паменшыць (раздел 4.6.2)

Вось зыходныя вызначэння трох R, ад Russell and Burch (1959) :

"Замена азначае замяшчэнне свядомых жывых вышэйшых жывёл неадушаўлёныя матэрыялу. Скарачэнне азначае памяншэнне колькасці жывёл, якія выкарыстоўваюцца для атрымання інфармацыі аб зададзеным колькасці і дакладнасці. Дапрацоўка азначае любое зніжэнне частоты або цяжару нечалавечых працэдур, якія прымяняюцца да таго звера, якія яшчэ павінны быць выкарыстаны ".

Тры важныя рэчы, якія я прапаную, ня перавызначаць этычныя прынцыпы, апісаныя ў чале 6. Хутчэй, яны з'яўляюцца больш ускладнены варыянт адзін з гэтых прынцыпаў-дабратворна-спецыяльна для ўстаноўкі чалавечых эксперыментаў.

Пры разглядзе пытання аб Эмацыйная Інфекцыя, ёсць тры не-этычныя пытанні, якія варта мець на ўвазе пры інтэрпрэтацыі гэтага эксперыменту. Па-першае, не ясна, якім чынам фактычныя дэталі эксперыменту падключыць да тэарэтычных патрабаванням; Іншымі словамі, ёсць пытанні аб валіднасці. Не ясна, што станоўчыя і адмоўныя колькасць слоў на самай справе з'яўляюцца добрым індыкатарам эмацыйнага стану удзельнікаў, таму што 1) не ясна, што словы, якія людзі адпраўляюць з'яўляюцца добрым індыкатарам іх эмоцый і 2) не ясна, што канкрэтны метад аналізу настрояў , якія выкарыстоўвалі даследчыкі ў стане надзейна вывесці эмоцыі (Beasley and Mason 2015; Panger 2016) . Іншымі словамі, можа быць дрэнны мерай неаб'ектыўнай сігналу. Па-другое, распрацоўка і аналіз эксперыменту нічога не кажа нам пра тое, хто быў самым ўплыў (гэта значыць, няма ніякага аналізу гетэрагеннасць эфектаў лячэння) і што можа быць механізмам. У гэтым выпадку даследчыкі мелі шмат інфармацыі пра ўдзельнікаў, але яны былі ў асноўным разглядаюцца як фішкі ў аналізе. Па-трэцяе, велічыня эфекту ў гэтым эксперыменце, быў вельмі малы; розніца паміж лячэбнай і кантрольнай умовах складае каля 1 у 1000 слоў. У сваёй працы, Крамер і яго калегі робяць справу, што эфект такога памеру мае важнае значэнне, таму што сотні мільёнаў людзей атрымаць доступ да іх News Feed кожны дзень. Іншымі словамі, яны сцвярджаюць, што нават эфекты, якія малыя для кожнага чалавека яны вялікія ў сукупнасці. Нават калі вы павінны былі прыняць гэты аргумент, ён да гэтага часу не зразумела, калі эфект такога памеру мае важнае значэнне ў адносінах да больш агульнай навуковай пытання аб эмацыйным заразы. Больш падрабязную інфармацыю пра сітуацыі , калі малыя эфекты з'яўляюцца важнымі см Prentice and Miller (1992) .

З пункту гледжання першага R (аднаўленчая), параўноўваючы эмацыйны заразы эксперымент (Kramer, Guillory, and Hancock 2014) і эмацыянальны даміно натуральны эксперымент (Coviello et al. 2014) і (Coviello et al. 2014) прапануе некаторыя агульныя ўрокі пра кампрамісы , звязаных з пераходам ад эксперыменты на натуральных эксперыментаў (і іншыя падыходы, такія як адпаведнасць, што спроба аппроксимировать эксперыменты ў неэкспериментальных дадзеных, глядзіце раздзел 2). Акрамя этычных пераваг, пераход ад эксперыментальнай да не-эксперыментальных даследаванняў таксама дазваляе даследчыкам вывучаць метады лячэння, што яны не ў стане матэрыяльна-тэхнічнага забеспячэння для разгортвання. Гэтыя этычныя і матэрыяльна-тэхнічныя перавагі даводзіцца плаціць, аднак. З натуральных эксперыментаў даследнікі маюць менш кантролю над рэчамі, як набор удзельнікаў, рандомизации і характар лячэння. Напрыклад, адно абмежаванне ападкаў у якасці лячэння з'яўляецца тое, што яно адначасова павялічвае станоўча і адмоўна памяншаецца. У эксперыментальным даследаванні, аднак, Крамер і яго калегі змаглі адрэгуляваць станоўча і адмоўна незалежна адзін ад аднаго.

Канкрэтны падыход , які выкарыстоўваецца Coviello et al. (2014) і Coviello et al. (2014) атрымала далейшае развіццё ў Coviello, Fowler, and Franceschetti (2014) . Для ўвядзення ў інструментальных зменных см Angrist and Pischke (2009) (менш фармальны) або Angrist, Imbens, and Rubin (1996) (больш фармальны характар ). Для скептычнай ацэнкі інструментальных зменных см Deaton (2010) , а таксама для ўвядзення ў інструментальных зменных са слабымі інструментамі (дождж з'яўляецца слабым інструментам), см Murray (2006) .

У больш агульным плане , добрае ўвядзенне ў натуральных эксперыментаў Dunning (2012) , і Rosenbaum (2002) , Rosenbaum (2009) , і Shadish, Cook, and Campbell (2001) прапануюць добрыя ідэі па нагоды ацэнкі прычынна - следчых эфектаў без эксперыментаў.

З пункту гледжання другога R (Refinement), ёсць навуковыя і матэрыяльна-тэхнічныя кампрамісы пры разглядзе змены канструкцыі эмацыйнага Contagion ад блакавання паведамленні для павышэння паведамленні. Напрыклад, гэта можа быць так, што тэхнічная рэалізацыя Стужцы навінаў робіць яго значна лягчэй зрабіць эксперымент з блакаваннем паведамлення, а не эксперыменту з павышэння паведамленні (звярніце ўвагу, што эксперымент з блакаваннем паведамлення можа быць рэалізаваны ў выглядзе пласта на верхняя частка сістэмы канал навін без неабходнасці змены базавай сістэмы). З навуковага пункту гледжання, аднак, тэорыя разгледжаны эксперыменту не ясна паказваюць адну канструкцыю над іншым.

На жаль, я не ў курсе істотнага папярэдняга даследавання аб адносных перавагах блакавання і павышэння ўтрымання ў Стужцы навінаў. Акрамя таго, я не бачыў шмат даследаванняў аб удасканаленні метадаў лячэння, каб зрабіць іх менш шкоднымі; Адзіным выключэннем з'яўляецца Jones and Feamster (2015) , якая разглядае выпадак вымярэння інтэрнэт - цэнзуры (тэму я абмяркоўваю ў главе 6 , у дачыненні да да вывучэння Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

З пункту гледжання трэцяга R (скарачэння), добрае ўвядзенне ў традыцыйны аналіз харчавання з'яўляецца Cohen (1988) . ковариаты папярэдняй апрацоўкі могуць быць уключаны ў стадыі праектавання і стадыі аналізу эксперыментаў; Кіраўнік 4 Gerber and Green (2012) забяспечвае добрае ўвядзенне ў абодвух падыходаў, і Casella (2008) забяспечвае апрацоўку больш глыбокі. Метады, якія выкарыстоўваюць гэтую інфармацыю для папярэдняй апрацоўкі ў рандомизации, як правіла, называюцца альбо блякавалі эксперыментальныя канструкцыі або слаістыя эксперыментальных узораў (тэрміналогія не выкарыстоўваецца паслядоўна ва ўсіх грамадах); гэтыя метады глыбока звязаны з стратыфікаваць метадаў адбору пробаў , разгледжаных у раздзеле 3. Глядзі Higgins, Sävje, and Sekhon (2016) для дадатковай інфармацыі аб выкарыстанні гэтых канструкцый у масіўных эксперыментах. Ковариаты папярэдняй апрацоўкі таксама могуць быць уключаны ў стадыі аналізу. McKenzie (2012) даследуе адрозненні-в-адрозненнях падыход да аналізу палявых эксперыментаў , больш падрабязна. См Carneiro, Lee, and Wilhelm (2016) Больш падрабязную інфармацыю пра кампрамісы паміж рознымі падыходамі да павышэння дакладнасці ў ацэнках эфектаў лячэння. І, нарэшце, пры вырашэнні пытання, каб паспрабаваць ўключыць ковариатами папярэдняй апрацоўкі на стадыі праектавання або аналізу этапу (або абодва), ёсць некалькі фактараў, якія неабходна ўлічваць. Ва ўмовах , калі даследчыкі маюць намер паказаць , што яны не з'яўляюцца "рыбалка" (Humphreys, Sierra, and Windt 2013) , з выкарыстаннем ковариатами папярэдняй апрацоўкі на стадыі праектавання можа быць карысным (Higgins, Sävje, and Sekhon 2016) . У сітуацыях , калі ўдзельнікі прыбываюць паслядоўна, асабліва онлайн палявых эксперыментаў з выкарыстаннем інфармацыі для папярэдняй апрацоўкі ў стадыі праектавання можа быць цяжкім лагістычных, глядзі, напрыклад , Xie and Aurisset (2016) .

Варта дадаць трохі інтуіцыі аб тым, чаму розніца ў рознасцяў можа быць значна больш эфектыўным, чым розніца-в-сродкаў. Многія онлайн вынікі маюць вельмі высокую дысперсію (глядзі , напрыклад, Lewis and Rao (2015) і Lamb et al. (2015) і Lamb et al. (2015) ) і з'яўляюцца адносна стабільнымі ў працягу доўгага часу. У гэтым выпадку адзнака змены будуць мець істотна меншую дысперсію, павялічваючы магутнасць статыстычнага тэсту. Адной з прычын гэтага падышоў не выкарыстоўваецца часцей, з'яўляецца тое, што да лічбавага стагоддзя не было распаўсюджана мець вынікі папярэдняй апрацоўкі. Больш канкрэтны спосаб думаць пра гэта, каб прадставіць сабе эксперымент па вымярэнні, ці выклікае канкрэтная працэдура практыкаванні страта вагі. Калі вы робіце падыход розніца-в-сродкаў, ваша ацэнка будзе мець зменлівасць, якая зыходзіць ад зменлівасці вагі ў папуляцыі. Калі вы робіце падыход розніца-в-розніцы, аднак, што ў прыродзе змена вагі атрымлівае выдаленыя, і вы можаце лёгка вызначыць розніцу, выкліканую лячэннем.

Адным з важных спосабаў , каб паменшыць колькасць удзельнікаў , якія ўдзельнічаюць у эксперыменце , з'яўляецца правядзенне аналізу магутнасці, што Крамер і яго калегі маглі б зрабіць на падставе памераў эфекту , назіранага з натуральнага эксперыменту па Coviello et al. (2014) або больш ранніх версій ня-эксперыментальнае даследаванне Крамера (2012) (на самай справе гэтыя мерапрыемствы ў канцы гэтай часткі). Звярніце ўвагу на тое, што такое выкарыстанне аналізу магутнасці трохі адрозніваецца ад тыповай. У аналагавым узросце, як правіла, даследчыкі зрабілі аналіз магутнасці, каб пераканацца, што іх даследаванне не было занадта маленькім (г.зн. пад харчаваннем). Цяпер, аднак, даследчыкі павінны зрабіць аналіз магутнасці, каб пераканацца, што іх даследаванне не з'яўляецца занадта вялікім (г.зн. над харчаваннем).

Нарэшце, я разгледзеў даданне чацвёртага R: перапрафіляваць. Гэта значыць, калі даследчыкі знаходзяць сябе з больш дасведчанымі дадзенымі, чым яны павінны звярнуцца да іх першапачатковы пытанне даследавання, яны павінны пераарыентаваць гэтыя задаваць новыя пытанні. Напрыклад, уявіце, што Крамер і яго калегі выкарысталі рознаснае-в-адрозненнях ацэншчык і апынуліся з вялікай колькасцю дадзеных, чым гэта неабходна для вырашэння іх пытання даследавання. Замест таго, каб не выкарыстоўваць гэтыя дадзеныя ў поўнай меры, яны маглі б вывучалі памер эфекту як функцыя папярэдняй апрацоўцы эмацыйнага выразы. Гэтак жа , як Schultz et al. (2007) і Schultz et al. (2007) выявілі , што эфект лячэння была рознай для лёгкіх і цяжкіх карыстальнікаў, магчыма , наступствы Стужка навін адрозніваліся для людзей , якія ўжо мелі тэндэнцыю пакідаць шчаслівыя (або сумныя) паведамленні. Repurposing можа прывесці да "рыбалка" (Humphreys, Sierra, and Windt 2013) і "р-узлом" (Simmons, Nelson, and Simonsohn 2011) , але яны ў значнай ступені адрасны з камбінацыяй сумленнай справаздачнасці (Simmons, Nelson, and Simonsohn 2011) , папярэдняя рэгістрацыя (Humphreys, Sierra, and Windt 2013) , а таксама метады машыннага навучання , якія спрабуюць пазбегнуць празмернай падганяння.