4.6.2 Замяна, Сложно, и да се намали

Този превод е създаден от компютър. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.6.2 Замяна, Сложно, и да се намали

Направи си експеримент по-хуманен, като се замени експерименти с не-експериментални изследвания, рафиниране на обработките, както и намаляване на броя на участниците.

Второто парче съвети, които бих искал да предложи за проектиране на цифрови експерименти отнася етика. Както Restivo и ван де Rijt експеримента на barnstars в Уикипедия показва, намалява разходите означава, че етиката ще станат все по-важна част от изследователски проект. В допълнение към етичните рамки ръководните хора изследвания, които ще опиша в глава 6, изследователи разработват дигитални експерименти също може да се направи по етични идеи от друг източник: етичните принципи, разработени за ръководене на експерименти с животни. В частност, през забележителност книга техните принципи на Humane експериментални техники, Russell and Burch (1959) предложи три принципа, които следва да ръководят научни изследвания върху животни: Смяна, Сложно, и да се намали. Бих искал да предложа тези три R може да се използва и в леко променена форма, за ръководене на дизайна на човешки експерименти. В частност,

Замяна: Сменете експерименти с по-малко инвазивни методи, ако е възможно
Уточнете: Уточнете лечението да правят толкова безобидни, колкото е възможно
Намаляване: Намаляване на броя на участниците в експеримента си колкото е възможно повече

За да се направи бетон тези три R и да покаже как те могат потенциално да доведе до по-добро и по-хуманен експериментален дизайн, аз ще опиша един онлайн експеримент, който генерира етичен дебат. Тогава аз ще опиша как трите R е предложил конкретни и практически промени в дизайна на експеримента.

Един от най-етично спори цифров полеви експерименти е "Емоционална зараза", която се провежда от Адам Креймър, Джейми Gillroy, и Джефри Ханкок (2014) . Експериментът се състоя на Facebook и е мотивирано от смесица от научни и практически въпроси. По това време, доминиращата начинът, по който потребителите взаимодействат с Facebook беше News Feed, на алгоритмично куратор набор от статуси за Facebook от Facebook приятели на потребителя. Някои критици на Facebook предполагаха, че тъй като на News Feed има предимно положително мнения-приятели фука най-новите си парти-то би могло да причини на потребителите да се чувстват тъжни, защото животът им изглежда по-малко вълнуващи в сравнение. От друга страна, може би ефектът е точно обратното; може би виждат вашия приятел с добро време ще ви накара да се чувстват щастливи? За да отговори на тези конкуриращи се хипотези и да преминете нашето разбиране за това как емоциите на човек се влияе от нейните приятели емоции-Kramer и колеги тичаха един експеримент. Изследователите поставят около 700 000 потребители в четири групи в продължение на една седмица: група "негативизъм намалена", за когото пунктове с негативни думи (например, тъжно) са били рандомизирани блокира показването Feed на новини; а "позитивност намалена" група за когото мнения с положителни думи (например, щастлив) са били рандомизирани блокирани; и две контролни групи. В контролната група за "негативизъм намалена" група, мнения бяха случайно блокирани в същия размер като на "негативизъм намалена" група, но без оглед на емоционалното съдържание. Контролната група за "позитивност намалена" група е построена в паралелна мода. Дизайнът на този експеримент показва, че съответната контролна група не винаги е без изменения. По-скоро, понякога контролната група получава лечение, за да се създаде по-точно сравнение, че за изследвания въпрос изисква. Във всички случаи, постовете, които бяха блокирани от News Feed все още са били на разположение на потребителите чрез други части на сайта Facebook.

Kramer и колеги установили, че за участниците в позитивното намалени състояние, процентът на положителните думи в актуализациите им статус намалява и процентът на отрицателните думи увеличава. От друга страна, за участниците в състояние на негативизъм намалява, процентът на положителните думи увеличи и процентът на отрицателните думи намалява (Фигура 4.23). Въпреки това, тези ефекти са доста малки: разликата в положителни и отрицателни думи между лечение и контрол е около 1 на 1000 думи.

Фигура 4.23: Доказателства за емоционална зараза (Kramer, Guillory, и Hancock 2014 г.). Процент на положителните думи и отрицателни думи от експериментално условие. Барове представят прогнозни стандартни грешки.

Фигура 4.23: Доказателства за емоционална зараза (Kramer, Guillory, and Hancock 2014) . Процент на положителните думи и отрицателни думи от експериментално условие. Барове представят прогнозни стандартни грешки.

Вложил съм обсъждане на научните аспекти на този експеримент в допълнително раздела за четене в края на главата, но за съжаление, този експеримент е най-известен за генериране на етичен дебат. Само няколко дни след това на хартия е публикувана в Бюлетин на Националната академия на науките, имаше огромно недоволство от страна на изследователите, така и на пресата. Outrage около хартията се фокусира върху две основни точки: 1) участниците не дават съгласие отвъд стандартните Facebook условията на услугата за лечение, което някои хора смятаха, че може да причини вреда на участниците и 2) на проучването не са били подложени на трета страна етично преглед (Grimmelmann 2015) . Етичните въпроси, повдигнати в този дебат, причинени списанието бързо да публикува рядко "редакционна израз на загриженост" относно етиката и етичното процеса преглед за изследването (Verma 2014) . През следващите години, експериментът продължава да бъде източник на интензивен дебат и несъгласие, и този спор може да са имали случайното ефекта от шофиране в сенките много други експерименти, които се извършват от фирми (Meyer 2014) .

Като се има предвид, че фон около Емоционален зараза, сега бих искал да покаже, че R е 3 може да предложи конкретни, практически подобрения за реални проучвания (каквото и да може лично да мислят за етиката на този конкретен експеримент). Първият R е Сменете: изследователите трябва да се стремят да заменят експерименти с по-малко инвазивни и рискови техники, ако е възможно. Например, вместо да провежда експеримент, учените са могли да използват естествен експеримент. Както е описано в глава 2, природни експерименти са ситуации, когато нещо се случва в света, който е приблизително равен на случаен възлагане на процедури (например, лотария, за да се реши кой ще бъде повикан в армията). Предимството на естествен експеримент е, че изследователят не трябва да достави лечения; на околната среда прави това за вас. С други думи, с естествен експеримент, учените не би необходими за експериментално манипулира News Feeds хората.

Всъщност, почти едновременно с емоционалната зараза експеримента, Coviello et al. (2014) се експлоатират това, което може да се нарече една емоционална зараза естествен експеримент. Техният подход, при който се използва техника, наречена инструменталните променливи, е малко по-сложно, ако никога не сте го виждали преди. Така че, за да се обясни защо това е необходимо, да се изгради до него. Първата идея, че някои изследователи могат да имат да учат емоционална зараза ще бъде да сравнявате вашите мнения по дни, когато ви News Feed беше много положителен за вашите мнения по дни, когато ви News Feed беше много негативно. Този подход би било добре, ако целта е просто да се предскаже емоционалното съдържание на вашите мнения, но този подход е проблематично, ако целта е да се изследва причинно-следствена ефект на вашия News Feed на публикациите си. За да видите на проблема с този дизайн, помисли за Деня на благодарността. В САЩ, положителни мнения скок и отрицателни мнения отвеса на благодарността. По този начин, на благодарността, изследователите могат да видят, че си News Feed беше много положителен и че сте публикували положителни неща. Но, вашите положителни мнения са могли да бъдат причинени от благодарността не от съдържанието на вашия News Feed. Вместо това, с цел да се оцени причинната изследователи ефект се нуждаят от нещо, което се променя съдържанието на вашия News Feed без директно смяна на емоциите си. За щастие, има нещо подобно се случва през цялото време: времето.

Coviello и колеги установили, че един дъждовен ден в някой град ще средно намаляване на дела на мнения, които са положителни с около 1 процентен пункт и увеличаване на дела на мнения, които са отрицателно с около 1 процентен пункт. След това, Coviello и колеги използват този факт, за да учат емоционална зараза без да е необходимо да експериментално да манипулира News Feed никого. По същество това, което направиха, е мярка, колко си мнения бяха засегнати от лошото време в градовете, където живеят приятелите си. За да се разбере защо това има смисъл, представете си, че живеете в Ню Йорк и имате приятел, който живее в Сиатъл. Сега си представете, че един ден тя започва да вали в Сиатъл. Този дъжд в Сиатъл няма директно да повлияе на настроението ви, но това ще доведе до вашия News Feed да бъде по-малко позитивно и по-негативни, защото на мнения на ваши приятели. По този начин, на дъжда в Сиатъл случайно манипулира вашия News Feed. Включването на тази интуиция в надеждна статистическа процедура се усложнява (и точният подход, използван от Coviello и колеги е малко нестандартна), така че сме поставени по-подробно обсъждане в допълнително раздела за четене. Най-важното нещо, за да си спомня за Coviello и подход колега е, че това им дава възможност да учат емоционална зараза без да е необходимо да тече експеримент, който потенциално може да навреди на участниците, и тя може да се окаже, че в много други настройки, които могат да заместят експерименти с друга техники.

Втори в 3 РС Сложно: изследователите трябва да се стремят да усъвършенстват лечения си, за да причини възможно най-малката вреда. Например, вместо да блокира съдържание, което е положителен или отрицателен, изследователите биха могли да са подобрили съдържание, което е положителна или отрицателна. Това повишаване дизайн би променило емоционалното съдържание на участниците Външни новини, но това щеше да адресира един от опасението, че критиците, изразени: че експериментите са могли да причинят на участниците да пропуснете важна информация в тяхната News Feed. С дизайн, използван от Kramer и колеги, съобщение, което е важно, е по-вероятно да бъде блокиран като едно, че не е така. Въпреки това, с увеличаване на дизайн, съобщенията, които ще бъдат изместени ще бъдат тези, които са по-малко важни.

И накрая, третият R е Намалете: изследователите трябва да се стремят към намаляване на броя на участниците в техния експеримент, ако е възможно. В миналото, това намаление се е случило естествено, защото променливите разходи на аналогови експерименти беше висока, което насърчава научните изследвания, за да се оптимизира тяхното проектиране и анализ. Въпреки това, когато има нулеви данни на променливите разходи, изследователите не са изправени пред ограничения на разходите от размера на техния експеримент, и това има потенциала да доведе до ненужно големи експерименти.

Например, Крамер и колеги биха могли да използват информация предварителна обработка за своите участници, като например предварително третиране публикуване поведение-да направят своя анализ по-ефективно. По-специално, отколкото сравняване на съотношението на положителни думи от условията на лечение и контрол, Kramer и колеги може сравняват промените в съотношението на положителни думи между условия; подход, често се нарича разлика-в-различия и която е тясно свързана с смесена конструкция, която описах по-рано в тази глава (Фигура 4.5). Това означава, че за всеки един от участниците, изследователите биха могли да са създали полувремето промяна (поведение след лечението - поведение предварително третиране) и след това се сравняват оценките за промяна на участниците в условията на лечение и контрол. Този подход разлика-в-разлики е по-ефективно статистически, което означава, че изследователите могат да постигнат същото статистическа доверието, използвайки много по-малки проби. С други думи, като не е лечение на участниците като "джаджи", изследователите често могат да получат по-точни оценки.

Без да се налага необработените данни, че е трудно да се знае точно колко по-ефективен подход разлика-в-разлики би било в този случай. Но, Deng et al. (2013) съобщава, че в три онлайн експерименти върху търсачката Bing те са били в състояние да се намали разсейването на своите оценки с около 50%, и подобни резултати са докладвани при някои онлайн експерименти в Netflix (Xie and Aurisset 2016) . Това намаление вариацията 50% означава, че емоционалните изследователите заразата може да са били в състояние да намали тяхната проба на половина, ако те са използвани малко по-различен методи за анализ. С други думи, с една малка промяна в анализа, 350,000 души може да са били пощадени участие в експеримента.

В този момент може би се чудите защо изследователите трябва да се грижи, ако 350,000 души са в емоционална зараза ненужно. Има две особености на емоционална зараза, които правят загриженост с прекомерен размер е необходимо, и тези функции се споделят от много цифрови полеви експерименти: 1) съществува несигурност относно това дали експериментът ще причини вреда на поне някои от участниците и 2) участие не е било доброволно. В експерименти с тези две характеристики изглежда препоръчително да се запази експериментите възможно най-малки.

В заключение, трите R's-замени Сложно, и да се намали-осигуряват принципи, които могат да помогнат на изследователите да градят етика в своите експериментални проекти. Разбира се, всеки един от тези възможни промени Емоционален зараза въвежда компромиси. Например, данни от физически експерименти не винаги е чиста като доказателства от рандомизирани експерименти и стимулиране може да са били по-логистично трудно да се прилагат от блок. Така че, целта на което предполага, тези промени не е била да умувам решенията на други изследователи. Вместо това, тя е да покаже как три R, може да се прилага в реална ситуация.