Діяльності

  • ступінь складності: легкий легко , середній середній , важко важко , дуже важкий дуже важкий
  • вимагає математики ( вимагає математики )
  • вимагає кодування ( вимагає кодування )
  • збір даних ( збір даних )
  • мої улюблені ( мій улюблений )
  1. [ середній , збір даних ] Берінський та його колеги (2012) частково оцінили MTurk шляхом відтворення трьох класичних експериментів. Повторити класичний експеримент з аналізу захворювань Азії на Tversky and Kahneman (1981) . Чи відповідають ваші результати Тверському та Канеману? Чи відповідають ваші результати Берінському та його колегам? Що, якщо що завгодно, це навчить нас використовувати MTurk для дослідницьких експериментів?

  2. [ середній , мій улюблений ] У деякій паперовій книзі під назвою "Ми повинні розбити", соціальний психолог Роберт Чиалдіні, один з авторів Schultz et al. (2007) пише, що він пішов з роботи на посаду професора, частково через виклики, з якими він стикається, проводячи польові експерименти в дисципліні (психології), яка в основному проводить лабораторні експерименти (Cialdini 2009) . Ознайомтеся з документом Циалдіні та напишіть йому електронного листа з проханням переглянути його розбивку в світлі можливостей цифрових експериментів. Використовуйте конкретні приклади досліджень, які стосуються його проблем.

  3. [ середній Щоб визначити, чи малі початкові успіхи замикаються або зникають, ван де Рідж та його колеги (2014) втручаються в чотири різні системи, що дають успіх у випадково вибраних учасників, а потім вимірюють довгострокові наслідки цього довільного успіху. Чи можете ви думати про інші системи, в яких можна було б запускати аналогічні експерименти? Оцініть ці системи з погляду питань наукової цінності, алгоритмічного змішування (див. Розділ 2) та етики.

  4. [ середній , збір даних ] Результати експерименту можуть залежати від учасників. Створіть експеримент, а потім запустіть його на MTurk за допомогою двох різних стратегій набору. Спробуйте вибрати стратегію експерименту та підбору персоналу, щоб результати були настільки різними, наскільки це можливо. Наприклад, стратегія набору персоналу може полягати у прийомі учасників вранці та ввечері або в компенсації учасникам високої та низької заробітної плати. Такі різноманітні стратегії набору персоналу можуть призвести до різних пулів учасників та різних експериментальних результатів. Як різняться ваші результати? Що це показує про експерименти на MTurk?

  5. [ дуже важкий , вимагає математики , вимагає кодування ] Уявіть собі, що ви планували експеримент "Емоційна інфекція" (Kramer, Guillory, and Hancock 2014) . Використовуйте результати попереднього спостереження Kramer (2012) щоб визначити кількість учасників у кожному стані. Ці два дослідження не збігаються відмінно, тому обов'язково чітко перерахуйте всі припущення, які ви робите:

    1. Запустіть симуляцію, яка вирішить, скільки учасників потрібно було б, щоб виявити ефект, подібний до ефекту в Kramer (2012) з \(\alpha = 0.05\) і \(1 - \beta = 0.8\) .
    2. Робіть аналогічний розрахунок аналітично.
    3. Враховуючи результати Kramer (2012) Емоційна інфекція (Kramer, Guillory, and Hancock 2014) надміцною (тобто, чи вона мала більше учасників, ніж потрібно)?
    4. З припущень, які ви зробили, які найбільше впливають на ваш розрахунок?
  6. [ дуже важкий , вимагає математики , вимагає кодування ] Відповісти на попереднє запитання ще раз, але на цей раз замість використання попереднього спостережливого дослідження Kramer (2012) використовуйте результати попереднього природного експерименту Lorenzo Coviello et al. (2014) .

  7. [ легко ] Обидва Margetts et al. (2011) та van de Rijt та ін. (2014) Провели експерименти з вивченням процесу підписування петиції. Порівняйте і порівнюйте конструкції та висновки цих досліджень.

  8. [ легко ] Dwyer, Maki, and Rothman (2015) провели два польових експериментальних дослідження щодо взаємозв'язку між соціальними нормами та про-екологічною поведінкою. Ось абзац свого документа:

    "Як може бути використана психологічна наука для заохочення природоохоронної поведінки? У двох дослідженнях, заходи, спрямовані на сприяння енергозбереженню в громадських ванних кімнатах, вивчали вплив описових норм та особисту відповідальність. У Дослідженні 1 світловий статус (тобто ввімкнення чи вимкнення) маніпулювали, перш ніж хтось увійшов у незайману загальну ванну кімнату, повідомляючи про описові норми для цього налаштування. Учасники значно частіше вимикали світло, якщо вони були вимкнені, коли вони входили. У Дослідженні 2 було включено додаткову умову, в якій норму вимикання світла демонстрували конфедерація, але учасники не самі не несли відповідальності за його включення. Особиста відповідальність моделювала вплив соціальних норм на поведінку; коли учасники не були відповідальні за включення світла, вплив норми було зменшено. Ці результати свідчать про те, яким чином описові норми та особиста відповідальність можуть регулювати ефективність заходів з охорони навколишнього середовища ".

    Ознайомтеся з їхньою роботою та спробуйте реплікацію дослідження 1.

  9. [ середній , збір даних ] Виходячи з попереднього питання, виконайте свій дизайн.

    1. Як порівняти результати?
    2. Що може пояснити ці відмінності?
  10. [ середній ] Були суцільні дискусії про експерименти з учасниками, набраними з MTurk. Паралельно відбулися суттєві дискусії щодо експериментів із використанням учасників, узятих з студентських груп студентів. Напишіть на двох сторінках нагадування про порівняння та контрастність турків та студентів як учасників дослідження. Ваше порівняння має включати обговорення як наукових, так і матеріально-технічних питань.

  11. [ легко ] Книга Джима Манзі " Неконтрольована" (2012) - чудовий уявлення про силу експериментування в бізнесі. У книзі він передав таку історію:

    "Я був колись на зустрічі з справжнім діловим генієм, саморобним мільярдером, який мав глибоке, інтуїтивне розуміння сили експериментів. Його компанія витрачала значні ресурси, намагаючись створити чудові вітрини, які б приваблювали споживачів та збільшували продажі, як кажуть, що вони повинні це зробити. Експерти ретельно протестували дизайн після дизайну, а в окремих сесіях тестового огляду протягом певного періоду років не було виявлено жодного значного причинного впливу кожного нового дизайну дисплея на продаж. Старший менеджер з маркетингу та маркетингу зустрівся з генеральним директором, щоб переглянути ці історичні результати тесту в toto. Представши всі експериментальні дані, вони дійшли висновку, що загальноприйнята мудрість була неправильною - це вікно, яке не відображає продаж. Їх рекомендована дія полягала у зниженні витрат і зусиль у цій галузі. Це суттєво продемонструвало здатність експериментувати, щоб відкинути умовну мудрість. Відповідь генерального директора була проста: "Мій висновок, що ваші дизайнери не дуже добре". Його рішенням було збільшити зусилля у дизайні дисплея магазину, щоб нові люди могли це зробити " (Manzi 2012, 158–9)

    Який тип дії є інтересом генерального директора?

  12. [ легко ] Виходячи з попереднього питання, уявіть, що ви були на зустрічі, де обговорювалися результати експериментів. Які чотири запитання можна поставити: один для кожного типу дії (статистичний, конструктований, внутрішній та зовнішній)?

  13. [ легко ] Bernedo, Ferraro, and Price (2014) вивчили семирічний ефект від водопостачання, описаного в Ferraro, Miranda, and Price (2011) (див. Малюнок 4.11). У цьому документі Бернедо та його колеги також намагалися зрозуміти механізм впливу, порівнюючи поведінку домогосподарств, які мали і не рушили після обробки. Тобто, приблизно, вони намагалися з'ясувати, чи було лікування вплинути на будинок або власника житла.

    1. Прочитайте статтю, опишіть їхній дизайн та підведіть підсумки своїх висновків.
    2. Чи означають їх результати, як слід оцінювати вартість ефективності подібних втручань? Якщо так, то чому? Якщо ні, то чому б і ні?
  14. [ легко ] У подальшому до Schultz et al. (2007) , Шульц та його колеги провели серію з трьох експериментів щодо впливу описових та заборонних норм на іншу поведінку навколишнього середовища (повторне використання рушників) у двох контекстах ( (Schultz, Khazian, and Zaleski 2008) готель та таймшер) (Schultz, Khazian, and Zaleski 2008) .

    1. Узагальніть конструкцію та висновки цих трьох експериментів.
    2. Як взагалі вони змінюють тлумачення Schultz et al. (2007) ?
  15. [ легко ] У відповідь на Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) провели серію лабораторних експериментів з вивчення дизайну електричних рахунків. Ось як вони описують його в абстрактному вигляді:

    "У дослідженні на основі опитування кожен учасник побачив гіпотетичний рахунок на електроенергію для сім'ї з відносно високим споживанням електроенергії, що включає інформацію про (а) історичне використання, (б) порівняння з сусідами та (в) історичне використання з розбиттям пристроїв. Учасники бачили всі типи інформації в одному з трьох форматів, включаючи (a) таблиці, (b) гістограми та (c) графіки значків. Ми повідомляємо про три основні висновки. По-перше, споживачі розуміли кожен вид інформації про використання електроенергії найбільше, коли це було представлено в таблиці, можливо, тому що таблиці полегшують просте читання точка. По-друге, переваги та наміри економити електроенергію були найсильнішими для інформації про історичне використання, незалежно від формату. По-третє, люди з низькою енергетичною грамотністю розуміють всю інформацію менше ».

    На відміну від інших подальших досліджень, основним результатом інтересу в Canfield, Bruin, and Wong-Parodi (2016) є поведінка, а не фактична поведінка. Які сильні та слабкі сторони такого типу досліджень у більш широкій дослідницькій програмі, що сприяє економії енергії?

  16. [ середній , мій улюблений ] Smith and Pell (2003) представили сатиричний мета-аналіз досліджень, що демонструють ефективність парашутів. Вони зробили висновок:

    "Як і у багатьох заходах, спрямованих на профілактику поганого здоров'я, ефективність парашутів не була ретельно оцінена за допомогою рандомізованих контрольованих досліджень. Прихильники доказової медицини критикували прийняття втручань, оцінених за допомогою лише спостережних даних. Ми вважаємо, що кожен може скористатися, якщо найбільш радикальні головні дійові особи доказової медицини організували та брали участь у подвійному сліпому, рандомізованому, плацебо-контрольованому кросоверному дослідженні парашута ".

    Напишіть відповідний варіант для загальної читацької газети, наприклад, " Нью-Йорк Таймс" , який виступає проти фетишизації експериментальних доказів. Надайте конкретні конкретні приклади. Підказка: Див. Також Deaton (2010) і Bothwell et al. (2016) . Bothwell et al. (2016) .

  17. [ середній , вимагає кодування , мій улюблений ] Різниця в відмінності оцінки ефекту лікування може бути більш точною, ніж різниця в середніх оцінках. Напишіть меморандум інженеру, який відповідає за перевірку A / B у початковій компанії із соціальних мереж, пояснюючи значення підходу "різниця в відмінності" для ведення онлайн-експерименту. Доповідна записка повинна містити твердження про проблему, деяку інтуїцію про умови, за яких різниця у різниці оцінювача перевищить середню різницю в оцінці та просте моделювання.

  18. [ легко , мій улюблений ] Гері Лавман був професором Гарвардської бізнес-школи, а потім став генеральним директором Harrah's, однієї з найбільших компаній у світі казино. Коли він переїхав до Харри, компанія Loveman перетворила компанію на програму лояльності, яка часто використовувалась як льотчик, яка зібрала величезну кількість даних про поведінку клієнтів. На вершині цієї постійно вимірюваної системи компанія почала експерименти. Наприклад, вони можуть провести експеримент, щоб оцінити ефект купона для безкоштовної ночі готелів для клієнтів із певною моделлю гральних закладів. Ось як він описав важливість експериментування щоденних ділових практик Harrah:

    "Це схоже на те, що ви не переслідуєте жінок, ви не вкрали, і вам потрібно мати контрольну групу. Це одне з того, що ви можете втратити свою роботу в Harrah'ах - не керуючи контрольної групою " (Manzi 2012, 146)

    Напишіть електронного листа до нового співробітника, пояснюючи, чому Любмін вважає важливим мати контрольну групу. Ви повинні спробувати включити приклад - реальний або зроблений, щоб проілюструвати свою точку зору.

  19. [ важко , вимагає математики ] Новий експеримент спрямований на оцінку ефекту нагадування про текстові повідомлення щодо прийняття вакцинації. Сто п'ятдесят клінік, кожна з яких має 600 бажаючих пацієнтів, готові взяти участь. Існує фіксована вартість 100 доларів за кожну клініку, з якою ви хочете працювати, і це коштує 1 долар за кожне текстове повідомлення, яке ви хочете надіслати. Крім того, будь-які клініки, з якими ви працюєте, оцінять результат (чи хтось отримав щеплення) безкоштовно. Припустимо, що у вас є бюджет у розмірі 1000 доларів.

    1. За яких умов може бути краще зосередити свої ресурси на невеликій кількості клінік і на яких умовах може бути краще поширювати їх ширше?
    2. Які фактори визначають найменший розмір ефекту, який ви зможете надійно визначити за допомогою вашого бюджету?
    3. Напишіть нагадування про пояснення цих компромісів потенційному спонсору.
  20. [ важко , вимагає математики ] Найважливішою проблемою, пов'язаною з онлайновими курсами, є стирання: багато студентів, які починають курси, закінчаться. Уявіть собі, що ви працюєте на платформі онлайн-навчання, а дизайнер на платформі створив візуальний бар'єр прогресу, який, на її думку, допоможе не дати студентам вийти з курсу. Ви хочете перевірити ефект ступеня прогресу на студентів у великому обчислювальному курсі соціальної науки. Вирішивши будь-які етичні проблеми, які можуть виникнути в експерименті, ви і ваші колеги турбуються, що на курсі може не вистачати студентів, щоб надійно виявити наслідки панелі виконання. У наступних розрахунках можна припустити, що половина студентів отримає індикатор виконання, а половину - не. Крім того, можна припустити, що немає ніяких перешкод. Інакше кажучи, ви можете припустити, що учасники постраждали тільки від того, чи отримували вони лікування чи контроль; вони не впливають на те, чи отримували інші люди лікування чи контроль (для більш формальної визначення, див. главу 8 Gerber and Green (2012) ). Слідкуйте за будь-якими додатковими припущеннями, які ви робите.

    1. Припустимо, що прогрес бар, як очікується, збільшить частку студентів, які закінчили клас на 1 процентний пункт; який розмір вибірки потрібно для надійного виявлення ефекту?
    2. Припустимо, що прогрес бар, як очікується, збільшить частку студентів, які закінчили клас на 10 процентних пунктів; який розмір вибірки потрібно для надійного виявлення ефекту?
    3. Тепер уявіть, що ви провели експеримент, і студенти, які закінчили всі матеріали курсу, пройшли іспит. Коли ви порівнюєте результати підсумкових іспитів учнів, які отримали індикатор прогресу з десятками тих, хто цього не зробив, ви, на ваш подив, знаєте, що студенти, які не отримали індикатор прогресу, насправді набрали більший бал. Чи означає це, що ступінь прогресу змусив студентів вчитися менше? Що ви можете дізнатися з даних результатів? (Підказка: див. Главу 7 Gerber and Green (2012) )
  21. [ дуже важкий , вимагає кодування , мій улюблений ] Уявіть, що ви працюєте науковцем даних у технічній компанії. Хтось з відділу маркетингу просить про вашу допомогу в оцінці експерименту, який вони планують, щоб виміряти рентабельність інвестицій (НРІ) для нової рекламної кампанії в Інтернеті. Рентабельність інвестицій визначається як чистий прибуток від кампанії, поділений на вартість кампанії. Наприклад, кампанія, яка не вплинула на продажі, матиме рентабельність інвестицій -100%; кампанія, в якій прибуткова прибуток була рівною витратам, рентабельність інвестицій становитиме 0; і кампанія, в якій прибуток генерувався вдвічі, вартість рентабельності інвестицій становитиме 200%.

    Перед початком експерименту відділ маркетингу надає вам таку інформацію на основі їхніх попередніх досліджень (фактично ці значення характерні для реальних рекламних кампаній в Інтернеті, про які повідомляється в Льюїсі та Рао (2015) ):

    • Середній обсяг продажів на одного клієнта слідує нормальному розподілу з середнім значенням 7 доларів США та стандартним відхиленням 75 доларів США.
    • Очікується, що кампанія збільшить продажі на 0,35 долара США на одного клієнта, що відповідає збільшенню прибутку в розмірі 0,175 доларів США на одного клієнта.
    • Запланований розмір експерименту становить 200 000 осіб: половина в лікувальній групі та половина в контрольній групі.
    • Вартість кампанії становить 0,14 долара США за учасника.
    • Очікуваний рентабельність інвестицій у кампанію складає 25% [ \((0.175 - 0.14)/0.14\) ]. Іншими словами, відділ маркетингу вважає, що за кожні 100 доларів, витрачених на маркетинг, компанія заробить додаткові 25 доларів у прибутку.

    Напишіть нагадування про оцінку цього запропонованого експерименту. Ваша доповідь повинна використовувати свідчення з моделювання, яке ви створюєте, і має вирішувати дві основні проблеми: (1) Чи рекомендуєте ви запустити цей експеримент, як заплановано? Якщо так, то чому? Якщо ні, то чому б і ні? Обов'язково ознайомтеся з критеріями, які ви використовуєте для прийняття цього рішення. (2) Який тип вибірки ви б рекомендували для цього експерименту? Знову ж таки, будь ласка, не забудьте про критерії, які ви використовуєте для прийняття цього рішення.

    У цьому конкретному випадку буде розглянуто гарне нагадування; краще нагадування буде узагальнювати з цього випадку одним способом (наприклад, показати, як рішення змінюється як функція розміру ефекту кампанії); і чудовий запис буде представляти повністю узагальнений результат. Ваша доповідь повинна використовувати графіки, щоб ілюструвати результати.

    Ось два натяки. По-перше, відділ маркетингу може надати вам непотрібну інформацію, і вони, можливо, не змогли надати вам необхідну інформацію. По-друге, якщо ви використовуєте R, пам'ятайте, що функція rlnorm () не працює так, як багато хто очікує.

    Ця діяльність дасть вам змогу аналізувати владу, створювати симуляції та повідомляти свої результати словами та графіками. Це має допомогти вам провести аналіз сили для будь-якого експерименту, а не просто експериментів, призначених для оцінки рентабельності інвестицій. Ця діяльність передбачає, що у вас є певний досвід статистичного тестування та аналізу влади. Якщо ви не знайомі з аналізом енергії, я рекомендую вам прочитати "Power Primer" Cohen (1992) .

    Ця діяльність була натхненна чудовим документом RA Lewis and Rao (2015) , що яскраво ілюструє фундаментальне статистичне обмеження навіть масових експериментів. Їх робота, яка спочатку мала провокаційну назву "Про майже неможливість вимірювання віддачі рекламі", показує, наскільки важко виміряти рентабельність інвестицій онлайн-реклами, навіть за допомогою цифрових експериментів з участю мільйонів клієнтів. У більш загальному плані, RA Lewis and Rao (2015) ілюструють фундаментальний статистичний факт, який особливо важливий для експериментів у цифровому віці: важко оцінити малі ефекти лікування серед шумних даних про результати.

  22. [ дуже важкий , вимагає математики ] Зробіть те ж саме, що і попереднє запитання, але, а не моделювання, слід використовувати аналітичні результати.

  23. [ дуже важкий , вимагає математики , вимагає кодування ] Зробіть те ж саме, що й попереднє запитання, але використовуйте як симуляційні, так і аналітичні результати.

  24. [ дуже важкий , вимагає математики , вимагає кодування ] Уявіть собі, що ви написали нагадування, описане вище, а хтось з відділу маркетингу надає одну частину нової інформації: вони очікують 0,4 кореляції між продажами до і після експерименту. Як це змінює рекомендації у вашій нагадуванні? (Підказка: див. Розділ 4.6.2, щоб дізнатись більше про оціночну різницю між значеннями та оцінювач різниці в відмінності.)

  25. [ важко , вимагає математики ] Щоб оцінити ефективність нової веб-програми допомоги у сфері зайнятості, університет провело рандомізоване контрольне випробування серед 10 000 студентів, які вступають у свій останній рік навчання. Безкоштовна підписка з унікальною реєстраційною інформацією була відправлена ​​через ексклюзивне запрошення електронною поштою до 5000 випадково вибраних учнів, а інші 5000 студентів перебували в контрольній групі та не мали підписки. Через дванадцять місяців наступне опитування (без відповіді) показало, що як у лікувальних, так і в контрольних групах 70% учнів забезпечили повну зайнятість у вибраній галузі (табл. 4.6). Таким чином, здавалося, що веб-сервіс не мав ефекту.

    Однак вчений-вчитель в університеті подивився на дані трохи ближче і виявив, що лише 20% студентів групи лікування входили до облікового запису після отримання електронного листа. Далі, і дещо дивно, що серед тих, хто ввійшов на веб-сайт, лише 60% забезпечували роботу на повну зайнятість у вибраній області, що нижче, ніж ставка для тих, хто не ввійшов у систему та нижче, ніж ставка для людей в умовах контролю (таблиця 4.7).

    1. Надайте пояснення, що могло статися.
    2. Які два способи розрахунку ефекту лікування в цьому експерименті?
    3. З огляду на цей результат, чи слід надавати цю послугу всім студентам? Просто бути зрозумілим, це не питання з простою відповіддю.
    4. Що вони повинні робити далі?

    Підказка: це питання виходить за межі матеріалу, що розглядається в цьому розділі, але вирішує питання, що є загальними в експериментах. Цей тип експериментального дизайну іноді називають заохочувальним дизайном, тому що учасникам пропонується займатися лікуванням. Ця проблема є прикладом того, що називається однобічним невідповідністю (див. Главу 5 Gerber and Green (2012) ).

  26. [ важко ] Після подальшого розгляду виявилося, що експеримент, описаний у попередньому питанні, був ще більш складним. Виявилося, що 10% людей у ​​контрольній групі заплатили за доступ до послуги, і вони склали 65% зайнятості (таблиця 4.8).

    1. Напишіть електронний лист із підсумками того, що ви думаєте, і рекомендуйте курс дій.

    Підказка: це питання виходить за межі матеріалу, що розглядається в цьому розділі, але вирішує питання, що є загальними в експериментах. Ця проблема є прикладом того, що називається двосторонньою невідповідністю (див. Главу 6 Gerber and Green (2012) ).

Таблиця 4.6: Простий перегляд даних із експерименту служб кар'єри
Група Розмір Рівень зайнятості
Надається доступ до веб-сайту 5000 70%
Не надається доступ до веб-сайту 5000 70%
Таблиця 4.7: Більше повного перегляду даних з експерименту служб кар'єри
Група Розмір Рівень зайнятості
Надано доступ до веб-сайту та увійшов до системи 1000 60%
Надано доступ до веб-сайту та ніколи не входило 4000 72,5%
Не надається доступ до веб-сайту 5000 70%
Таблиця 4.8: Повний перегляд даних з експерименту служб кар'єри
Група Розмір Рівень зайнятості
Надано доступ до веб-сайту та увійшов до системи 1000 60%
Надано доступ до веб-сайту та ніколи не входило 4000 72,5%
Не надано доступу до веб-сайту та оплачено 500 65%
Не надав доступ до веб-сайту і не заплатив за нього 4,500 70,56%