4.3 Dva dimenzije eksperimentov: laboratorij na terenu in analogno-digitalni

Laboratorijski poskusi ponuditi nadzor na terenu poskusi ponujajo realizem in digitalne terenu poskusi združiti nadzor in realizem v večjem obsegu.

Poskusi so v različnih oblikah in velikostih. V preteklosti so raziskovalci menili, da je koristno organizirati eksperimente vzdolž kontinuuma med laboratorijskimi eksperimenti in poljskimi eksperimenti . Zdaj pa morajo raziskovalci organizirati tudi eksperimente vzdolž drugega kontinuuma med analognimi eksperimenti in digitalnimi eksperimenti . Ta dvodimenzionalni prostor za načrtovanje vam bo pomagal razumeti prednosti in pomanjkljivosti različnih pristopov in poudariti področja z največjimi možnostmi (slika 4.1).

Slika 4.1: Shema prostorskega načrtovanja za poskuse. V preteklosti so se eksperimenti spreminjali vzdolž dimenzij laboratorijskih polj. Zdaj se razlikujejo tudi na analogno-digitalni dimenziji. Ta dvodimenzionalni prostor za načrtovanje ponazarjajo štirje poskusi, ki sem jih opisal v tem poglavju. Po mojem mnenju je območje največje možnosti digitalnih eksperimentov na terenu.

Slika 4.1: Shema prostorskega načrtovanja za poskuse. V preteklosti so se eksperimenti spreminjali vzdolž dimenzij laboratorijskih polj. Zdaj se razlikujejo tudi na analogno-digitalni dimenziji. Ta dvodimenzionalni prostor za načrtovanje ponazarjajo štirje poskusi, ki sem jih opisal v tem poglavju. Po mojem mnenju je območje največje možnosti digitalnih eksperimentov na terenu.

Ena razsežnost, na kateri lahko organiziramo preizkuse, je dimenzija lab-polja. Mnogi eksperimenti v družboslovju so laboratorijski eksperimenti, kjer dodiplomski študent opravlja čudne naloge v laboratoriju za pridobitev tečaja. Ta vrsta preizkusa prevladuje raziskavam v psihologiji, saj omogoča raziskovalcem, da ustvarijo zelo nadzorovane nastavitve, s katerimi natančno izolirajo in preizkušajo specifične teorije o družbenem vedenju. Za nekatere težave pa se čuti nekoliko čudno, da bi iz takih nenavadnih ljudi, ki opravljajo takšne nenavadne naloge v tako nenavadnem okolju, pripravili močne zaključke o človeškem vedenju. Ti pomisleki so pripeljali do gibanja proti poljskim eksperimentom . Terenski poskusi združujejo močno zasnovo naključnih kontrolnih eksperimentov z bolj reprezentativnimi skupinami udeležencev, ki opravljajo bolj pogoste naloge v bolj naravnih okoljih.

Čeprav nekateri razmišljajo o laboratorijskih in terenskih eksperimentih kot konkurenčnih metodah, je najbolje, da jih razmišljamo kot dopolnilne, z različnimi prednosti in slabostmi. Na primer, Correll, Benard, and Paik (2007) uporabila laboratorijski poskus in poljski poskus, da bi našli vir "materinstva". V Združenih državah matere zaslužijo manj denarja kot brez otrok, tudi če primerjati ženske s podobnimi znanji, ki delajo na podobnih delovnih mestih. Za ta vzorec je veliko možnih razlag, od katerih je eden, da so delodajalci pristranski proti matere. (Zanimivo je, da nasprotnik očitno nasprotuje očetom: pogosto zaslužijo več kot primerljivi moški brez otrok). Da bi ocenili morebitno pristranskost matere, sta Correll in kolegi vodila dva eksperimenta: eno v laboratoriju in eno na terenu.

Prvič, v laboratorijskem poskusu so udeležencem povedali, kdo so bili visokošolski dodiplomski študenti, da podjetje opravlja zaposlitveno iskanje osebe, ki bo vodila svoj novi oddelek za trženje vzhodne obale. Študentom je bilo povedano, da jim je družba želela pomagati pri postopku zaposlovanja, od njih pa so zahtevali, da pregledajo povzetke več potencialnih kandidatov in ocenijo kandidate na številne razsežnosti, kot so njihova inteligenca, toplota in zavezanost k delu. Študentje so se vprašali, če bi priporočili najem prosilca in kaj bi priporočili kot izhodiščno plačo. Vendar pa študentje niso vedeli, da so bili resursi posebej zasnovani tako, da so podobni, razen za eno stvar: nekateri od njih so označili materinstvo (s seznanjanjem z vpletenostjo v združenje staršev in učiteljev), nekateri pa niso. Correll in sodelavci so ugotovili, da je manj verjetno, da bi študentje priporočali zaposlitev mater in jim ponudili nižjo izhodiščno plačo. Nadalje s pomočjo statistične analize ocen in odločitev v zvezi z zaposlovanjem Correll in sodelavci ugotavljajo, da so bile slabosti matere v veliki meri pojasnjene z dejstvom, da so bile ocenjene nižje v smislu kompetenc in obveznosti. Tako je ta laboratorijski poskus omogočil Correllu in sodelavcem, da merijo vzročni učinek in omogočijo morebitno razlago tega učinka.

Seveda je morda skeptičen glede sklepanja o celotnem trgu dela v ZDA, ki temelji na odločitvah nekaj sto študentov, ki verjetno nikoli niso opravljali polnega delovnega časa, kaj šele najeti nekoga. Zato sta Correll in kolegi opravila tudi dopolnilni poljski eksperiment. Odzvali so se na stotine oglaševanih delovnih mest s ponarejenimi pismi in ponovitvami. Podobno kot materiali, prikazani študentom, nekateri znova poročajo o materinstvu, nekateri pa niso. Correll in kolegi so ugotovili, da so bile matere manj verjetno, da bi se vrnile na intervjuje kot enako kvalificirane ženske brez otrok. Z drugimi besedami, resnični delodajalci, ki so se odločili v naravnem okolju, so se vedejo podobno kot študenti. Ali so iz istega razloga naredili podobne odločitve? Na žalost ne vemo. Raziskovalci niso mogli od delodajalcev zahtevati, da ocenijo kandidate ali pojasnijo svoje odločitve.

Ta par poskusov razkriva veliko o laboratorijskih in terenskih eksperimentih na splošno. Laboratorijski poskusi nudijo raziskovalcem skoraj popolni nadzor nad okoljem, v katerem udeleženci sprejemajo odločitve. Torej, na primer, v laboratorijskem poskusu so Correll in sodelavci lahko zagotovili, da so bili vsi ostali brani v mirnem okolju; v poljskem eksperimentu nekateri nadaljnji zapisi morda niso bili prebrali. Poleg tega, ker udeleženci v laboratoriju vedo, da jih preučujejo, raziskovalci pogosto lahko zbirajo dodatne podatke, ki lahko pomagajo razložiti, zakaj udeleženci sprejemajo svoje odločitve. Na primer, Correll in sodelavci so udeležence v laboratorijskem poskusu pozvali k ocenjevanju kandidatov v različnih dimenzijah. Tovrstni podatki o procesu bi lahko raziskovalcem pomagali razumeti mehanizme, na podlagi katerih se razlikujejo pri tem, kako udeleženci obravnavajo nadaljnje delo.

Po drugi strani pa te iste značilnosti, ki sem jih ravno opisal kot prednosti, se včasih obravnavajo kot slabosti. Raziskovalci, ki raje poljske eksperimente, trdijo, da bi udeleženci laboratorijskih eksperimentov lahko delali zelo drugače, ker vedo, da jih preučujejo. Na primer, v laboratorijskem poskusu so udeleženci morda uganili cilj raziskave in spremenili svoje vedenje, tako da niso bili pristranski. Poleg tega lahko raziskovalci, ki raje izvajajo poljske eksperimente, trdijo, da se lahko majhne razlike v nadaljevanju izstopajo le v zelo čistem, sterilnem laboratorijskem okolju, zato bo laboratorijski poskus preveč precenil učinek materinstva na odločitve o resničnem najemu. Končno mnogi zagovorniki poljskih eksperimentov kritizirajo odvisnost laboratorijskih eksperimentov do udeležencev WEIRD: predvsem študentov iz zahodnih, izobraženih, industrializiranih, bogatih in demokratičnih držav (Henrich, Heine, and Norenzayan 2010a) . Poskusi Corrella in sodelavcev (2007) ilustrirajo dve skrajnosti na kontinuumu laboratorijskih polj. Med tema dvema ekstremama obstajajo tudi različni hibridni modeli, vključno s pristopi, kot so prenašanje brez študentov v laboratorij ali odhod na teren, vendar imajo še vedno udeleženci neobičajno nalogo.

Poleg laboratorijske razsežnosti, ki je obstajala v preteklosti, digitalna doba pomeni, da imajo raziskovalci zdaj drugo glavno razsežnost, po kateri se lahko preizkusi razlikujejo: analogno-digitalni. Tako kot obstajajo tudi laboratorijski poskusi, čisti poskusi na terenu in različni hibridi, obstajajo čisti analogni poskusi, čisti digitalni eksperimenti in različni hibridi. Težko je ponuditi formalno definicijo te razsežnosti, koristna delovna definicija pa je, da so v celoti digitalni eksperimenti eksperimenti, ki uporabljajo digitalno infrastrukturo za zaposlovanje udeležencev, randomiziranje, zagotavljanje zdravljenja in merjenje rezultatov. Na primer študija Barnstarsa ​​in Wikipedija Restiv in van de Rijta (2012) je bila popolnoma digitalni eksperiment, saj je uporabil digitalne sisteme za vse štiri korake. Prav tako popolnoma analogni poskusi ne uporabljajo digitalne infrastrukture za katerega od teh štirih korakov. Številni klasični eksperimenti v psihologiji so popolnoma analogni eksperimenti. V teh dveh ekstremah so delno digitalni eksperimenti, ki uporabljajo kombinacijo analognih in digitalnih sistemov.

Ko nekateri razmišljajo o digitalnih eksperimentih, takoj razmišljajo o spletnih eksperimentih. To je žalost, ker možnosti za vodenje digitalnih eksperimentov niso le spletno. Raziskovalci lahko izvajajo delno digitalne eksperimente z uporabo digitalnih naprav v fizičnem svetu, da zagotovijo zdravljenje ali izmerijo rezultate. Na primer, raziskovalci bi lahko uporabljali pametne telefone za zagotavljanje zdravljenja ali senzorjev v grajenem okolju za merjenje rezultatov. Pravzaprav, kot bomo videli kasneje v tem poglavju, so raziskovalci že uporabili merilnike energije za merjenje rezultatov poskusov porabe energije, ki vključujejo 8,5 milijona gospodinjstev (Allcott 2015) . Ker digitalne naprave postajajo vse bolj integrirane v življenje ljudi in se senzorji vključijo v grajeno okolje, se bodo te možnosti za delno digitalne eksperimente v fizičnem svetu dramatično povečale. Z drugimi besedami, digitalni eksperimenti niso samo spletni preizkusi.

Digitalni sistemi ustvarjajo nove možnosti za eksperimente povsod po kontinuumu lab-field. V čiste laboratorijske eksperimente lahko na primer raziskovalci uporabljajo digitalne sisteme za natančnejše merjenje vedenja udeležencev; Eden od primerov tega izboljšanega merjenja je oprema za opazovanje oči, ki zagotavlja natančne in neprekinjene meritve glede pogleda. Digitalna doba prav tako ustvarja možnost uporabe spletnih laboratorijskih testov. Na primer, raziskovalci so hitro sprejeli Amazon Mechanical Turk (MTurk) za zaposlovanje udeležencev za spletne poskuse (slika 4.2). MTurk se ujema z "delodajalci", ki imajo naloge, ki jih je treba izpolniti z "delavci", ki želijo opravljati te naloge za denar. Za razliko od tradicionalnih trgov dela, pa za opravljene naloge je običajno potrebno le nekaj minut, ki jih je treba dokončati, in celotna interakcija med delodajalcem in delavcem je na spletu. Ker MTurk posnema vidike tradicionalnih laboratorijskih eksperimentov, ki plačujejo, da dokončajo naloge, ki jih ne bi naredili brezplačno - je seveda primerna za določene vrste preizkusov. V bistvu je MTurk ustvaril infrastrukturo za upravljanje skupine udeležencev, ki zaposlujejo in plačujejo ljudi, raziskovalci pa so izkoristili to infrastrukturo, da bi se izkoristili v vedno razpoložljivem bazenu udeležencev.

Slika 4.2: Papers objavljene z uporabo podatkov iz Amazon Mechanical Turk (MTurk). MTurk in drugi spletni trgi dela ponujajo raziskovalcem primeren način za zaposlitev udeležencev za poskuse. Prilagojeno od Bohannon (2016).

Slika 4.2: Papers objavljene z uporabo podatkov iz Amazon Mechanical Turk (MTurk). MTurk in drugi spletni trgi dela ponujajo raziskovalcem primeren način za zaposlitev udeležencev za poskuse. Prilagojeno od Bohannon (2016) .

Digitalni sistemi ustvarjajo še več možnosti za poljske poskuse. Zlasti omogočajo raziskovalcem, da združijo stroge podatke o nadzoru in obdelavi, ki so povezani z laboratorijskimi eksperimenti z bolj raznolikimi udeleženci in bolj naravnimi nastavitvami, ki so povezane z laboratorijskimi eksperimenti. Poleg tega digitalni poljski poskusi ponujajo tudi tri priložnosti, ki so pri analognih eksperimentih težko zahtevale.

Prvič, medtem ko ima večina analognih laboratorijskih in poljskih eksperimentov na stotine udeležencev, digitalni poljski poskusi lahko imajo na milijone udeležencev. Ta sprememba v obsegu je, ker lahko nekateri digitalni eksperimenti proizvajajo podatke brez ničelnih spremenljivih stroškov. To pomeni, da ko raziskovalci ustvarijo eksperimentalno infrastrukturo, povečanje števila udeležencev običajno ne poveča stroškov. Povečanje števila udeležencev s faktorjem 100 ali več ni le kvantitativna sprememba; gre za kvalitativno spremembo, saj omogoča raziskovalcem, da se naučijo različnih stvari iz poskusov (npr. heterogenost učinkov zdravljenja) in da vodijo popolnoma drugačne eksperimentalne zasnove (npr. eksperimenti velike skupine). Ta točka je tako pomembna, vrnila se bom k koncu poglavja, ko bom nudil nasvete o ustvarjanju digitalnih eksperimentov.

Drugič, medtem ko večina analognih laboratorijskih in terenskih eksperimentov obravnava udeležence kot razločljive pripomočke, digitalni poskusi na terenu pogosto uporabljajo osnovne informacije o udeležencih v fazi načrtovanja in analize raziskave. Te informacije o ozadju, ki se imenujejo informacije o predhodnem zdravljenju , so pogosto na voljo v digitalnih eksperimentih, saj jih vodijo nad sistemi za merjenje časa (glej poglavje 2). Na primer, raziskovalec na Facebooku ima veliko več informacij o predhodnem zdravljenju ljudi v njenem digitalnem eksperimentu, kot je univerzitetni raziskovalec, o ljudeh v svojem analognem eksperimentu na terenu. Ta predobdelava omogoča učinkovitejšo eksperimentalno zasnovo, kot je blokiranje (Higgins, Sävje, and Sekhon 2016) in ciljno zaposlovanje udeležencev (Eckles, Kizilcec, and Bakshy 2016) in bolj (Eckles, Kizilcec, and Bakshy 2016) analize, kot je ocena heterogenosti učinkov zdravljenja (Athey and Imbens 2016a) in kovarijata prilagoditev za izboljšano natančnost (Bloniarz et al. 2016) .

Tretjič, medtem ko mnogi analogni laboratorijski in poljski eksperimenti zagotavljajo zdravljenje in izmerijo rezultate v sorazmerno stisnjenem času, se nekateri poskusi na digitalnem polju dogajajo v daljših časovnih obdobjih. Na primer, preskus Restiv in van de Rijta je izid izmeril dnevno 90 dni, eden od poskusov, ki vam jih bom povedal kasneje v poglavju (Ferraro, Miranda, and Price 2011) v treh letih sledili rezultatom. stroški. Te tri možnosti velikosti priložnosti, podatki o predhodni obdelavi ter podatki o vzdolžni obdelavi in ​​rezultatih se najpogosteje pojavijo, ko se preskusi izvajajo nad sistemi za merjenje časa (glej poglavje 2 za več o merilnih sistemih).

Medtem ko digitalni eksperimenti na terenu ponujajo veliko možnosti, imajo tudi nekatere slabosti z analognim laboratorijskim in analognim poljskim poskusom. Na primer, poskusi ni mogoče uporabiti za preučevanje preteklosti in lahko ocenijo le učinke zdravljenja, ki jih je mogoče manipulirati. Tudi, čeprav so poskusi nedvomno koristni za usmerjanje politike, so natančne smernice, ki jih lahko ponujajo, nekoliko omejene zaradi zapletov, kot so okoljska odvisnost, problemi s skladnostjo in ravnotežni učinki (Banerjee and Duflo 2009; Deaton 2010) . Digitalni eksperimenti na terenu tudi povečujejo etične pomisleke, ki so jih ustvarili poljski poskusi - temo, ki jo bom obravnaval kasneje v tem poglavju in v poglavju 6.