4.4 Перехід від простих експериментів

Давайте вийдемо за межі простих експериментів. Для багатих експериментів корисні три концепції: дійсність, неоднорідність ефектів лікування та механізмів.

Дослідники, які є новими в експериментах, часто зосереджуються на дуже специфічному, вузькому питанні: чи це лікування "працює"? Наприклад, чи телефонний дзвінок від добровольця закликає когось голосувати? Чи змінюється кнопка веб-сайту від синього до зеленого, щоб підвищити коефіцієнт кліків? На жаль, вільна фраза про те, що "працює", затуманює той факт, що вузькоспеціалізовані експерименти дійсно не говорять вам, чи лікування "працює" у загальному сенсі. Швидше за все, вузькоспеціалізовані експерименти відповідають на більш конкретне запитання: який середній ефект від цього специфічного лікування з цією конкретною реалізацією для цього населення учасників на даний момент? Я назовю експерименти, які зосереджуються на цьому вузькому питанні простими експериментами .

Прості експерименти можуть надати цінну інформацію, однак вони не відповідають на багато важливих та цікавих питань, таких як чи є люди, для яких лікування мав більший чи менший ефект; чи є ще одна процедура, яка б була більш ефективною; і чи цей експеримент стосується ширших соціальних теорій.

Для того, щоб показати цінність виходу за межі простих експериментів, розглянемо аналоговий польовий експеримент П. Уеслі Шульца та його колег щодо співвідношення соціальних норм та енергоспоживання (Schultz et al. 2007) . Шульц та його колеги висували дверні кронштейни на 300 домогосподарств у Сан-Маркосі, штат Каліфорнія, і ці дверні виклики надавали різні повідомлення, спрямовані на заохочення енергозбереження. Тоді Шульц та його колеги оцінювали вплив цих повідомлень на споживання електроенергії як через один тиждень, так і через три тижні; більш детальний опис експериментального дизайну див. на малюнку 4.3.

Малюнок 4.3: Схема експериментального дизайну від Schultz та співавт. (2007). Поле експерименту передбачало відвідування близько 300 сімей у Сан Маркос, Каліфорнія, п'ять разів протягом восьми тижнів. Під час кожного візиту дослідники вручну брали читання від вимірювача потужності будинку. В ході двох візитів вони розмістили двері на кожному будинку, надаючи деяку інформацію про використання енергії у домогосподарстві. Питання дослідження полягало в тому, як зміст цих повідомлень вплине на використання енергії.

Малюнок 4.3: Схема експериментального дизайну від Schultz et al. (2007) . Поле експерименту передбачало відвідування близько 300 сімей у Сан Маркос, Каліфорнія, п'ять разів протягом восьми тижнів. Під час кожного візиту дослідники вручну брали читання від вимірювача потужності будинку. В ході двох візитів вони розмістили двері на кожному будинку, надаючи деяку інформацію про використання енергії у домогосподарстві. Питання дослідження полягало в тому, як зміст цих повідомлень вплине на використання енергії.

Експеримент мав дві умови. По-перше, домашні господарства отримали загальні поради щодо енергозбереження (наприклад, використовують вентилятори замість кондиціонерів) та інформацію про їх споживання енергії у порівнянні із середнім споживанням енергії в їх сусідстві. Шульц та його колеги назвали це описовним нормативним станом, оскільки інформація про використання енергії в районі надавала інформацію про типовий поведінку (тобто описові норми). Коли Шульц та його колеги подивилися на отримане енергоспоживання в цій групі, лікування, як видається, не мало ніякого ефекту, як у короткостроковій, так і в довгостроковій перспективі; іншими словами, лікування, здається, "не працює" (рис 4.4).

На щастя, Шульц та його колеги не вирішили цей спрощений аналіз. Перед початком експерименту вони обґрунтували, що важкі споживачі електроенергії, які перевищують середнє значення, можуть зменшити споживання, а легкі споживачі електроенергії, що знаходяться нижче середнього, можуть фактично збільшити споживання. Коли вони переглянули дані, це саме те, що вони знайшли (малюнок 4.4). Таким чином, що виглядало як лікування, яке не мав жодного ефекту, насправді це лікування, яке мав два компенсуючих ефекти. Цей контрпродуктивний приріст серед легких користувачів є прикладом ефекту бумерангу , де лікування може мати протилежний ефект від того, що мав намір.

Рисунок 4.4: Результати від Schultz та співавт. (2007). Панель (а) показує, що описове норму лікування має, за оцінками, нульовий середній ефект лікування. Проте, панель (б) показує, що цей середній ефект лікування фактично складається з двох компенсуючих ефектів. Для важких споживачів лікування зменшило використання, але для легких користувачів лікування збільшило використання. Нарешті, панель (с) показує, що друга обробка, яка використовувала описові та заборонні норми, мала приблизно такий самий ефект для важких користувачів, але пом'якшував ефект бумерангу для легких користувачів. Адаптований від Schultz та співавт. (2007).

Рисунок 4.4: Результати від Schultz et al. (2007) . Панель (а) показує, що описове норму лікування має, за оцінками, нульовий середній ефект лікування. Проте, панель (б) показує, що цей середній ефект лікування фактично складається з двох компенсуючих ефектів. Для важких споживачів лікування зменшило використання, але для легких користувачів лікування збільшило використання. Нарешті, панель (с) показує, що друга обробка, яка використовувала описові та заборонні норми, мала приблизно такий же ефект для важких користувачів, але пом'якшував ефект бумерангу для легких користувачів. Адаптований від Schultz et al. (2007) .

Одночасно з першим станом, Шульц та його колеги також пройшли другу умову. Домогосподарства, які перебувають у другому стані, одержували точно таке ж загальне поради щодо енергозбереження та інформацію про споживання енергії у їхньому домогосподарстві в порівнянні з середнім для їх сусідства - з одним мінімальним доповненням: для людей із споживанням нижче середнього значення дослідники додали: ), а для людей із споживанням, що перевищують середнє, вони додавали: (. Ці смайлики були розроблені таким чином, щоб викликати те, що дослідники називали забороненими нормами . Інкубаційні норми відносяться до сприйняття того, що зазвичай схвалено (і не схвалено), тоді як описові норми відносяться до сприйняття що робиться зазвичай (Reno, Cialdini, and Kallgren 1993) .

Додавши цей маленький смайлик, дослідники різко зменшили ефект бумеранга (малюнок 4.4). Таким чином, зробивши цю одну просту зміну - зміна, яка була мотивована абстрактною соціально-психологічною теорією (Cialdini, Kallgren, and Reno 1991) - дослідники змогли перетворити програму, яка, здається, не працювала в роботі, і одночасно вони змогли внести свій внесок у загальне розуміння того, як соціальні норми впливають на поведінку людини.

Проте, на цьому етапі ви можете помітити, що у цьому експерименті щось дещо інше. Зокрема, у експерименту Шульца та його колег насправді немає контрольної групи так само, як робили рандомізовані контрольні експерименти. Порівняння цього дизайну з Restivo та van de Rijt ілюструє відмінності між двома основними експериментальними конструкціями. У проектах між випробувань , таких як Restivo та van de Rijt, існує група лікування та контрольна група. З іншого боку, в рамках тематичних предметів поведінка учасників порівнюється до і після лікування (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . У межах експерименту, що складається з предмету, кожний учасник виступає як власна контрольна група. Сила міждисциплінальних конструкцій полягає в тому, що вони забезпечують захист від конфліктов (як я вже описав раніше), тоді як сила експериментів всередині випробувань підвищує точність оцінок. Нарешті, щоб передбачити ідею, яка з'явиться пізніше, коли я пропоную поради щодо розробки цифрових експериментів, _ змішаний design_combines покращує точність конструкцій всередині предметів та захист від поєднання конструкцій між темами (рисунок 4.5).

Рисунок 4.5: Три експериментальних конструкції. Стандартні рандомізовані контрольні експерименти використовують проекти між суб'єктами. Прикладом міжпрофесійного дизайну є експеримент у Restivo та van de Rijt (2012) щодо "Барнарстарс" та "Вклад в Вікіпедію": дослідники випадково розподілили учасників на лікувальні та контрольні групи, надавали учасникам групи лікування barnstar та порівнювали результати для дві групи Другий тип дизайну - це предметний дизайн. Два досліди, проведені в дослідженні Шульца та його колег (2007) щодо соціальних норм та використання енергії, ілюструють концепцію в рамках предметів: дослідники порівнювали споживання електроенергії учасниками до і після отримання лікування. Внутрішні тематичні конструкції забезпечують покращену статистичну точність, але вони відкриті для можливих конфліктів (наприклад, зміни погоди в період між попереднім лікуванням та періодами лікування) (Greenwald 1976; Charness, Gneezy and Kuhn 2012). Іноземні розробки також іноді називають повторними розробками. Нарешті, змішані конструкції поєднують покращену точність конструкцій всередині предметів та захист від поєднання конструкцій між темами. У змішаному дизайні дослідник порівнює зміну результатів для людей у ​​лікувальних та контрольних групах. Коли дослідники вже мають інформацію про попереднє лікування, як це відбувається у багатьох цифрових експериментах, змішані конструкції, як правило, є кращими, ніж проекти між темами, тому що вони призводять до покращеної точності оцінок.

Рисунок 4.5: Три експериментальних конструкції. Стандартні рандомізовані контрольні експерименти використовують проекти між суб'єктами . Прикладом міжпрофесійного дизайну є експеримент у Restivo та van de Rijt (2012) щодо "Барнарстарс" та "Вклад в Вікіпедію": дослідники випадково розподілили учасників на лікувальні та контрольні групи, надавали учасникам групи лікування barnstar та порівнювали результати для дві групи Другий тип дизайну - це предметний дизайн. Два досліди, проведені в дослідженні Шульца та його колег (2007) щодо соціальних норм та використання енергії, ілюструють концепцію в рамках предметів: дослідники порівнювали споживання електроенергії учасниками до і після отримання лікування. Внутрішні тематичні конструкції пропонують поліпшену статистичну точність, але вони відкриті для можливих конфліктів (наприклад, зміни погоди в період між попереднім лікуванням та періодами лікування) (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . Іноземні розробки також іноді називають повторними розробками. Нарешті, змішані конструкції поєднують покращену точність конструкцій всередині предметів та захист від поєднання конструкцій між темами. У змішаному дизайні дослідник порівнює зміну результатів для людей у ​​лікувальних та контрольних групах. Коли дослідники вже мають інформацію про попереднє лікування, як це відбувається у багатьох цифрових експериментах, змішані конструкції, як правило, є кращими, ніж проекти між темами, тому що вони призводять до покращеної точності оцінок.

В цілому, дизайн та результати дослідження, проведеного Шульцем та його колегами (2007) показують цінність переходу за рамки простих експериментів. На щастя, вам не потрібно бути творчим генієм для розробки таких експериментів. Соціальні вчені розробили три концепції, які допоможуть вам до більш багатих експериментів: (1) дійсність, (2) неоднорідність ефектів лікування та (3) механізми. Тобто якщо ви тримаєте ці три ідеї в процесі розробки свого експерименту, ви, звичайно, створите більш цікавий та корисний експеримент. Для того, щоб проілюструвати ці три концепції в дії, я опишу ряд додаткових частично цифрових польових експериментів, які спираються на елегантний дизайн та цікаві результати Шульца та його колег (2007) . Як ви побачите, завдяки більш ретельному дизайну, впровадженню, аналізу та інтерпретації, ви також можете перейти за межі простих експериментів.