4.4.1 Тэрмін дзеяння

Гэты пераклад быў створаны з дапамогай кампутара. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.4.1 Тэрмін дзеяння

Тэрмін дзеяння ставіцца да таго , колькі вынікі эксперыменту падтрымліваюць больш агульная выснова.

Ні адзін эксперымент не з'яўляецца дасканалым, і даследчыкі распрацавалі шырокі слоўнікавы запас , каб апісаць магчымыя праблемы. Тэрмін дзеяння ставіцца да ступені , у якой вынікі канкрэтнага эксперыменту падтрымліваюць некаторыя больш агульная выснова. Сацыяльныя навукоўцы выявілі , што карысна падзяліць рэчаіснасць на чатыры асноўных тыпу: статыстычны выснову дакладнасці, унутраная валіднасць, пабудаваць рэчаіснасць, і знешняя валіднасць (Shadish, Cook, and Campbell 2001, Ch 2) . Асвойваючы гэтыя паняцці прадаставіць вам разумовую кантрольны спіс для крытыкуючы і ўдасканаленне канструкцыі і аналіз эксперыменту, і гэта дапаможа вам мець зносіны з іншымі даследнікамі.

Статыстычная дакладнасць выснову цэнтраў па ўсім , ці было зроблена статыстычны аналіз эксперыменту правільна. У кантэксце Schultz et al. (2007) і Schultz et al. (2007) такое пытанне можа канцэнтравацца на вылічвацца Ці яны іх р-значэння правільна. Статыстычны аналіз выходзіць за рамкі гэтай кнігі, але я магу сказаць, што статыстычныя прынцыпы, неабходныя для распрацоўкі і аналізу эксперыментаў не змяніліся ў эпоху лічбавых тэхналогій. Тым ня менш, іншыя асяроддзі дадзеных у лічбавых эксперыментах сапраўды стварае новыя статыстычныя магчымасці (напрыклад, з дапамогай метадаў машыннага навучання для ацэнкі гетэрагеннасць эфектаў лячэння (Imai and Ratkovic 2013) г. (Higgins, Sävje, and Sekhon 2016) (Imai and Ratkovic 2013) ) і новых вылічальных задач (напрыклад, блакаванне ў масіўных эксперыментах (Higgins, Sävje, and Sekhon 2016) ).

Ўнутраная дакладнасць цэнтраў па ўсім , ці былі выкананы правільна эксперыментальныя працэдуры. Вяртаючыся да эксперыменту Schultz et al. (2007) і Schultz et al. (2007) , пытанні аб унутранай рэчаіснасці можа засяродзіцца вакол рандомизации, дастаўку лячэння і вымярэнне вынікаў. Напрыклад, вы можаце быць занепакоеныя тым, што навуковыя супрацоўнікі не чыталі электралічыльнікі надзейна. На самай справе, Шульц і яго калегі былі занепакоеныя гэтай праблемай, і яны мелі ўзор метраў для чытання ў два разы; На шчасце, вынікі былі па сутнасці ідэнтычныя. Увогуле, Шульца і эксперымент калегаў па-відаць, маюць высокую ўнутраную валіднасць, але гэта не заўсёды так; комплекснае поле і онлайн-эксперыменты часта сутыкаюцца з праблемамі на самом деле, якiя прыносяць права звароту да патрэбных людзям і вымярэння вынікаў для ўсіх. На шчасце, лічбавай стагоддзе можа дапамагчы паменшыць неспакой з нагоды ўнутранай рэчаіснасці, таму што робіць яго лягчэй гарантаваць, што лячэнне пастаўляецца ў выглядзе прызначана для тых, хто павінен атрымаць яго і вымяраць вынікі для ўсіх удзельнікаў.

Пабудаваць цэнтры валіднасці вакол матчу паміж дадзенымі і тэарэтычнымі канструкцыямі. Як ужо гаварылася ў чале 2, канструкцыі ўяўляюць сабой абстрактныя паняцці, якія сацыёлагі прычына кс. На жаль, гэтыя абстрактныя паняцці, не заўсёды маюць выразныя вызначэння і вымярэння. Вяртаючыся да Schultz et al. (2007) і Schultz et al. (2007) , сцвярджаюць , што забеспячальніцкіх сацыяльныя нормы могуць знізіць спажыванне электраэнергіі патрабуе даследчыкаў распрацаваць лячэнне , якое будзе кіраваць "забеспячальніцкіх сацыяльных нормаў» (напрыклад, смайлік) і вымераць "спажыванне электраэнергіі". У аналагавых эксперыментах, многія даследчыкі распрацавалі свае ўласныя працэдуры і вымераць свае вынікі. Такі падыход гарантуе, што, у максімальна магчымай ступені, эксперыменты супадаюць абстрактныя пабудовы вывучаюцца. У лічбавых эксперыментах, дзе даследчыкі партнёр з кампаніямі або урадамі для дастаўкі лячэння і выкарыстання заўсёды на сістэмах дадзеных для вымярэння вынікаў, матч паміж эксперыментам і тэарэтычных пабудоў можа быць менш жорсткай. Такім чынам, я чакаю, што канструкцыя рэчаіснасць будзе, як правіла, большую занепакоенасць у лічбавых эксперыментах, чым аналагавых эксперыментаў.

І, нарэшце, знешняя валіднасць канцэнтруе Ці вынікі гэтага эксперыменту будуць абагульняць на іншыя сітуацыі. Вяртаючыся да Schultz et al. (2007) і Schultz et al. (2007) , можна было б спытаць, будзе Ці гэта тая ж самая ідэя, падаючы людзям інфармацыю аб іх выкарыстанні энергіі ў сувязі з іх аднагодкамі і сігнал забеспячальніцкіх нормаў (напрыклад, смайлік) -зніжэнне спажывання энергіі , калі гэта было зроблена па-іншаму ў іншы параметр? Для большасці добра прадуманыя і добра праводзіць эксперыменты, асцярогі з нагоды знешняй рэчаіснасці цяжэй за ўсё звярнуцца. У мінулым гэтыя дэбаты аб знешняй рэчаіснасці часта былі проста куча людзей сядзіць у пакоі, спрабуючы ўявіць, што магло б быць, калі працэдуры былі зроблены па-іншаму, ці ў іншым месцы, або з рознымі людзьмі. На шчасце, лічбавы век дазваляе даследчыкам выйсці за межы гэтых спекуляцый дадзеных, свабоднай і ацаніць знешнюю рэчаіснасць эмпірычнаму.

Так як вынікі Schultz et al. (2007) і Schultz et al. (2007) былі настолькі захапляльнымі, кампанія пад назвай Оповер партнёрстве з камунальных паслуг у Злучаных Штатах , каб разгарнуць лячэнне больш шырока. На аснове канструкцыі Schultz et al. (2007) і Schultz et al. (2007) , Оповер створана наладзіць Home Energy паведамляе , што было два асноўных модуля, адзін з указаннем выкарыстання электраэнергіі хатнія гаспадаркі па адносінах да сваіх суседзяў з смайліка і адзін забяспечваючы парады для зніжэння спажывання энергіі (Малюнак 4.6). Затым, у супрацоўніцтве з даследнікамі, Оповер бегала рандомізірованный кантраляваных эксперыментаў, каб ацаніць ўздзеянне Home Energy Reports. Нягледзячы на тое, што лячэнне ў гэтых эксперыментах, як правіла, дастаўляюцца фізічна, як правіла, праз старамодны звычайнай пошце, вынік быў вымераны з выкарыстаннем лічбавых прылад у фізічным свеце (напрыклад, вымяральнікі магутнасці). Замест таго, каб ўручную збіраць гэтую інфармацыю з навуковымі супрацоўнікамі, якія наведваюць кожны дом, эксперыменты Оповер усе яны былі зробленыя ў супрацоўніцтве з энергетычнымі кампаніямі, якія дазваляюць даследчыкам атрымаць доступ да паказанні магутнасці. Такім чынам, гэтыя эксперыменты часткова лічбавых вобласці праводзіліся ў масавым маштабе пры нізкай кошту зменнай.

Малюнак 4.6: Галоўная Энергія Справаздачы ў Allcott (2011) быў модуль параўнання сацыяльных і модуль Дзеянне крокі.

У першай серыі эксперыментаў з удзелам 600000 хатніх гаспадарак , якія абслугоўваюцца 10 камунальных прадпрыемстваў вакол Злучаных Штатаў, Allcott (2011) знайшлі Energy Report Home знізіла спажыванне электраэнергіі на 1,7%. Іншымі словамі, вынікі нашмат большага, больш геаграфічна разнастайнага даследавання былі якасна падобныя з вынікамі Schultz et al. (2007) і Schultz et al. (2007) . Але, памер эфекту быў менш: у Schultz et al. (2007) і Schultz et al. (2007) дворагаспадаркі ў апісальнай і инъективного ўмове нормаў (адзін з эматыконам) скарацілі спажыванне электраэнергіі на 5%. Дакладная прычына гэтага адрознення невядомая, але Allcott (2011) выказаў здагадку , што атрыманне рукапісныя смайлік ў рамках даследавання пад эгідай універсітэта можа мець большы ўплыў на паводзіны , чым атрыманне друкаванага смайлік ў рамках масавага вытворчасці справаздачы з энергетычная кампанія.

Акрамя таго, у наступных даследаваннях, Allcott (2015) паведамілі аб дадатковых 101 эксперыментаў з удзелам яшчэ 8 мільёнаў хатніх гаспадарак. У гэтых эксперыментах наступных 101 Энергія Report Home працягвае выклікаць людзей, каб знізіць спажыванне электраэнергіі, але наступствы былі яшчэ менш. Дакладная прычына гэтага зніжэння не вядомы, але Allcott (2015) выказаў здагадку , што эфектыўнасць дакладу , як уяўляецца, скарачаецца з цягам часу , таму што ён быў на самай справе ўжываецца да розных тыпаў удзельнікаў. Больш канкрэтна, камунальныя паслугі ў больш эколаг абласцях, больш верагодна, прыняць праграму раней і іх кліенты былі больш спагадныя да лячэння. Як камунальныя паслугі з меншай колькасцю экалагічных кліентаў прынялі праграму, яе эфектыўнасць па ўсёй бачнасці зніжаецца. Такім чынам, гэтак жа, як рандомизация ў эксперыментах гарантуе, што лячэнне і кантрольнай групы падобныя, рандомизации ў даследчых цэнтрах гарантуе, што ацэнкі могуць быць абагульнены з адной групы ўдзельнікаў да больш агульнай групы насельніцтва (успомнім кіраўніка 3 аб выбарцы дадзеных). Калі навуковыя сайты не адбіраюцца выпадковым метадам, то абагульнення, нават ад зусім распрацаваны і праведзены эксперымент, можа быць праблематычным.

Разам гэтыя эксперыменты 111-10 у Allcott (2011) і 101 у Allcott (2015) -involved каля 8,5 мільёнаў сем'яў з усіх куткоў Злучаных Штатаў. Яны ўвесь час паказваюць, што Home Energy Справаздачы скараціць сярэдняе спажыванне электраэнергіі, вынік, які падтрымлівае арыгінальныя высновы Шульца і яго калегі з 300 дамоў у Каліфорніі. За проста тыражаванне гэтыя першапачатковыя вынікі, наступныя эксперыменты таксама паказваюць, што велічыня эфекту залежыць ад месцазнаходжання. Гэты набор эксперыментаў ілюструе таксама два больш агульных момантаў, якія тычацца эксперыментаў часткова лічбавых палёў. Па-першае, даследчыкі змогуць эмпірычным шляхам вырашэння праблем, звязаных знешняй рэчаіснасці, калі кошт правядзення эксперыментаў нізкая, і гэта можа адбыцца, калі вынік ужо вымяраецца заўсёды на дадзеных сістэмы. Такім чынам, можна меркаваць, што даследаванне павінна быць на назіранні за іншых цікавых і важных паводзін, якія ўжо запісаныя, а затым эксперыменты, на вяршыні гэтай існуючай вымяральнай інфраструктуры. Па-другое, гэта мноства эксперыментаў нагадвае нам пра тое, што эксперыменты лічбавыя поля не толькі ў рэжыме онлайн; ўсё больш і больш я чакаю, што яны будуць паўсюль з вялікай колькасцю вынікаў вымярэнняў з дапамогай датчыкаў ў штучнай асяроддзі.

Чатыры тыпу дзеянні-статыстычны выснову рэчаіснасці, унутранай рэчаіснасці, пабудаваць рэчаіснасць, знешняя валіднасць, забяспечваюць разумовую кантрольны спіс, каб дапамагчы даследчыкам ацаніць Ці вынікі канкрэтнага эксперыменту падтрымліваюць больш агульная выснова. У параўнанні з аналагавымі эксперыментаў ўзросту, у лічбавых эксперыментаў ўзросту павінна быць лягчэй вырашаць знешнюю рэчаіснасць эмпірычнаму і яно павінна быць лягчэй забяспечыць ўнутраную справядлівасць. З іншага боку, пытанні валіднасці, верагодна, будзе больш складаным у лічбавых эксперыментах ўзросту (хоць гэта было не так з эксперыментамі Оповер).