4.4.1 Gildistími

Gildistími átt við hversu mikið niðurstöður tilraunar styðja almennari niðurstöðu.

Engin tilraun er fullkominn, og vísindamenn hafa þróað mikið orðaforða til að lýsa hugsanleg vandamál. Gildi vísar að því marki sem niðurstöður tiltekinni tilraun styðja sumir almennari niðurstöðu. Félagsleg vísindamenn hafa fundið það gagnlegt að skipta réttmæti í fjóra meginflokka: tölfræðileg niðurstaða lögmæti, innra réttmæti, smíða gildi, og ytri gildi (Shadish, Cook, and Campbell 2001, Ch 2) . Húsbóndi þessi hugtök mun veita þér andlega gátlista fyrir critiquing og bæta hönnun og greiningu á tilraun, og það mun hjálpa þér að eiga samskipti við aðra vísindamenn.

Tölfræðileg niðurstaða Gildistími snýst um það hvort tölfræðileg greining tilraunarinnar var gert á réttan hátt. Í tengslum við Schultz et al. (2007) , svo spurning gæti sent á hvort þeir reikna sínum p-gildi rétt. Tölfræðileg greining er utan gildissviðs þessarar bókar, en ég get sagt að tölfræðileg meginreglur sem þarf til að hanna og greina tilraunir hafa ekki breyst í stafrænni öld. Hins vegar mismunandi gögn umhverfið í stafrænum tilraunum er skapa ný tölfræðileg tækifæri (td með því að nota vél læra aðferðir til að meta fjölbreytileika meðferð áhrifum (Imai and Ratkovic 2013) ) og nýjar computational áskoranir (td útilokun í gríðarlegu tilraunum (Higgins, Sävje, and Sekhon 2016) ).

Innri Gildistími snýst um hvort tilrauna aðferðir voru gerðar á réttan hátt. Snúum okkur aftur að tilraun Schultz et al. (2007) , spurningar um innra réttmæti gæti sent kringum slembiröðun, afhendingu meðferðar og mælingu á niðurstöðum. Til dæmis, þú might vera áhyggjur af því að rannsóknir aðstoðarmenn ekki lesið rafmagns metra á áreiðanlegan hátt. Í raun, Schultz og samstarfsmenn voru áhyggjur um þetta vandamál og þeir höfðu sýnishorn af metra lesa tvisvar; sem betur fer, niðurstöður voru í meginatriðum samhljóða. Almennt, Schultz og tilraunir samstarfsmanna virðist hafa mikla innri gildi, en þetta er ekki alltaf raunin; flókin sviði og á netinu tilraunir hlaupa oft í vandræðum raun skila rétta meðferð við rétta fólkið og mæla árangur fyrir alla. Sem betur fer, the stafrænn aldri geta hjálpa draga úr áhyggjum innra réttmæti því það gerir það auðveldara að tryggja að meðferð er afhent eins og ætlað er að þeir sem eiga að taka á móti henni og að mæla árangur fyrir alla þátttakendur.

Teikna gildis miðstöðvar um samsvörun milli gagna og fræðilegum býr. Eins og fjallað í 2. kafla, eru byggð ágrip hugmyndir sem félagsleg vísindamenn ástæða um. Því miður, þessi óhlutbundin hugtök ekki alltaf skýrar skilgreiningar og mælingar. Reglulegur Schultz et al. (2007) , sem halda því fram að sú aðgerð félagslegum viðmiðum geta lækkað notað rafmagn þarf vísindamenn að hanna meðferð sem myndi handleika "sú aðgerð félagslegum viðmiðum" (td broskarl) og til að mæla "rafmangsnotkun". Í hliðstæðum tilraunum, margir vísindamenn hannað eigin meðferðir þeirra og mæla eigin útkomu þeirra. Þessi aðferð tryggir að, eins mikið og mögulegt er, tilraunir passa ágrip býr verið rannsakað. Í stafrænum tilraunum þar sem vísindamenn í samstarfi við fyrirtæki eða ríkisstjórnir að skila meðferðir og nota alltaf-á gögn kerfi til að mæla árangur, passa á milli tilraunar og fræðileg býr kann að vera minna þétt. Þannig búast ég að reisa gildi mun hafa tilhneigingu til að vera stærri áhyggjuefni í stafrænum tilraunum en byggður á hliðstæðum tilraunum.

Að lokum, ytri gildi snýst um hvort niðurstöður þessarar tilraunar yrði alhæfa við aðrar aðstæður. Reglulegur Schultz et al. (2007) , einn gæti beðið, mun þetta sama hugmynd-veita fólki upplýsingar um orku notkun þeirra í samskiptum við jafnaldra sína og merki um injunctive viðmiðum (td broskarl) -Draga orkunotkunar ef það var gert á annan hátt í annað stilling? Fyrir flest vel hönnuð og vel rekið tilraunir, áhyggjur ytri gildi eru að herða að takast. Í the fortíð, þessir umræður um ytra réttmæti voru oft bara fullt af fólki situr í herbergi að reyna að ímynda sér hvað hefði gerst ef aðferðirnar voru gerðar á annan hátt, eða á öðrum stað, eða með mismunandi fólki. Sem betur fer, the stafrænn aldri gerir vísindamönnum kleift að fara út þessum gögnum án vangaveltum og meta ytri gildi tilraunum.

Vegna niðurstöðum Schultz et al. (2007) voru svo spennandi, félag heitir Opower samstarfi við tólum í Bandaríkjunum til að senda meðferðina fleirum. Byggt á hönnun Schultz et al. (2007) , Opower búin sérsniðin Home Energy Skýrslur sem höfðu tvö helstu einingar, sem birtist á heimili er rafmagn notkun miðað við nágranna sína með broskarli og einn veita ábendingar um að lækka orkunotkun (Mynd 4.6). Þá, í samstarfi við vísindamenn, Opower ran slembiröðuðum tilraunir til að meta áhrif af heimili Energy Skýrslur. Jafnvel þótt meðferðir í þessum tilraunum voru yfirleitt afhent líkamlega-venjulega í gegnum gamaldags pósti snigill-niðurstaða var mæld með stafræna tæki í líkamlega heimi (td máttur metra). Frekar en með höndunum að safna þessum upplýsingum með rannsóknir aðstoðarmenn heimsækja hvert hús, voru Opower tilraunir allt gert í samvinnu við orkufyrirtæki kleift vísindamenn til að fá aðgang að orku lestur. Þannig þessir hluta stafrænar tilraunir sviði voru að keyra á miklum mæli á litlum breytilegum kostnaði.

Mynd 4.6: The Home Energy Skýrslur í Allcott (2011) hafði Social Samanburður Module og aðgerð skref Module.

Mynd 4.6: The Home Energy Skýrslur í Allcott (2011) hafði Social Samanburður Module og aðgerð skref Module.

Í fyrsta sett tilraunir með þátttöku 600.000 heimili þjónað af 10 gagnsemi fyrirtæki um Bandaríkin, Allcott (2011) fann Home Energy Report lækkað raforkunotkun um 1,7%. Með öðrum orðum, niðurstöður úr miklu stærri, fleiri landfræðilega fjölbreytt rannsóknar var eigindlega svipuð niðurstöðum Schultz et al. (2007) . En áhrifin stærð var minni: í Schultz et al. (2007) á heimili í lýsandi og injective viðmiðum ástandi (einn með broskarli) minnkaði rafmagn notkun þeirra um 5%. Nákvæm Ástæðan fyrir þessum mismun er óþekkt, en Allcott (2011) sér til að taka á móti handskrifað tilfinning sem hluta af rannsókn á vegum háskóla gæti hafa stærri áhrif á hegðun en að fá prentað tilfinning sem hluta af massa framleitt skýrslu frá a máttur fyrirtæki.

Ennfremur, í síðari rannsóknir, Allcott (2015) greint á viðbótar 101 tilraunir sem varða viðbótar 8 milljón heimila. Í þessum næstu 101 tilraunir Home Energy Report áfram að valda fólki að lækka raforkunotkun þeirra, en áhrifin voru jafnvel minni. Nákvæm Ástæðan fyrir þessari lækkun er ekki þekkt, en Allcott (2015) getið að árangur skýrslunnar virtist vera minnkandi með tímanum vegna þess að það var í raun beitt til mismunandi gerðir af þátttakendum. Nánar tiltekið, tólum í fleiri umhverfisverndarsinni svæðum voru líklegri samþykkja forritið fyrr og viðskiptavinir þeirra voru betur til meðferðar. Eins tólum með minna umhverfis- viðskiptavini samþykkt áætlun, árangur hennar virtist að lækka. Svona, eins og slembival í tilraunum tryggir að meðferð og samanburðarhópurinn eru svipuð, slembival í síðum rannsóknir tryggir að áætlun getur verið almenn úr einum hópi þátttakenda til fleiri almenning (hugsa til baka til 3. kafla um sýnatöku). Ef rannsóknir síður eru ekki tekin af handahófi, þá alhæfing, jafnvel frá a fullkomlega hönnuð og gerð tilraun-getur verið erfið.

Saman þessar 111 tilraunir-10 í Allcott (2011) og 101 í Allcott (2015) -involved um 8,5 milljón heimila um allan Bandaríkjunum. Þeir sýna ítrekað að Home Energy Skýrslur draga meðaltali raforkunotkun, niðurstöðu sem styður upprunalegu niðurstöður Schultz og samstarfsmenn frá 300 heimilum í Kaliforníu. Beyond bara afrit þessar niðurstöður með frumtextanum, sem fylgt tilraunir sýna einnig að stærð áhrifum mismunandi eftir staðsetningu. Þetta sett af tilraunum sýnir einnig tvær almennari stig um hluta stafrænum tilraunum sviði. First, vísindamenn vilja vera fær til að reynslan takast á áhyggjum ytra réttmæti þegar kostnaður við að keyra tilraunir er lágt, og það getur orðið ef niðurstaðan er nú þegar verið mæld með alltaf-á gögnum kerfisins. Því er lagt til að rannsóknir ættu að vera á að líta út fyrir aðrar áhugaverðar og mikilvægar hegðun sem eru nú þegar verið skráð, og þá hanna tilraunir ofan á núverandi mælingu innviði. Í öðru lagi, þetta sett af tilraunum minnir okkur á að stafrænar tilraunir sviði eru ekki bara á netinu; æ ég búast við að þeir verði alls staðar með mörgum niðurstöðum mæld með skynjara í manngerðu umhverfi.

Þær fjórar tegundir af gildistímanum-tölfræðileg niðurstaða gildistíma, innra réttmæti, smíða gildi, ytra réttmæti-veita andlega gátlista til að hjálpa vísindamenn meta hvort niðurstöður úr tiltekinni tilraun styðja almennari niðurstöðu. Í samanburði við hliðstæðum tilraunum aldri, í stafrænum tilraunum aldri það ætti að vera auðveldara að takast ytri gildi tilraunum og það ætti að vera auðveldara að tryggja innra réttmæti. Á hinn bóginn, málefni reisa réttmæti mun líklega vera meira krefjandi í stafrænum tilraunum aldri (þó að það væri ekki raunin með Opower tilraunum).