4.6.2 Wymienić należy udoskonalić i zmniejszyć

Ten przekład został stworzony przez komputer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.6.2 Wymienić należy udoskonalić i zmniejszyć

Zrób eksperyment bardziej humanitarny wymieniając doświadczenia z badań nieeksperymentalnych, rafinacji zabiegi, a zmniejszenie liczby uczestników.

Drugi kawałek porad, które chciałbym zaoferować o projektowaniu eksperymentów cyfrowych dotyczy etyki. Jako eksperyment Restivo i van de Rijt na barnstars w pokazach Wikipedii, zmniejszenie kosztów oznacza, że etyka staje się coraz ważniejszą częścią projektu badawczego. Oprócz ram etycznych ludziach prowadzących badania, które opiszę w rozdziale 6, naukowcy projektowanie eksperymentów cyfrowych może również opierać się na idei etycznych z innego źródła: zasad etycznych opracowane do prowadzenia eksperymentów na zwierzętach. W szczególności, w swoich Zasadach góry księgowych Humane Doświadczalnej Technique, Russell and Burch (1959) zaproponował trzy zasady, którymi powinien kierować badań na zwierzętach: Wymienić, precyzowanie i zmniejszyć. Chciałbym zaproponować, aby te trzy R mogą być również wykorzystywane w nieco zmodyfikowanej formie, aby poprowadzić projekt ludzkich doświadczeń. W szczególności,

Wymienić: Wymień eksperymenty z mniej inwazyjnych metod, jeżeli to możliwe
Kryteria: Kryteria leczenie zrobić to tak nieszkodliwe, jak to możliwe
Zmniejszyć: Zmniejszyć liczbę uczestników eksperymentu jak najwięcej

W celu przedstawienia konkretnych tych trzech R i pokazać, jak mogą potencjalnie prowadzić do lepszego i bardziej humanitarny projekt eksperymentalny, będę opisywać doświadczenia polowego online, który generowany debaty etycznej. Następnie opiszę w jaki sposób trzy R sugerują konkretne i praktyczne zmiany w projektowaniu eksperymentu.

Jednym z najbardziej dyskutowanych etycznie eksperymentów polowych cyfrowy jest "Emotional Contagion", który został przeprowadzony przez Adama Kramer, Jamie Gillroy i Jeffrey Hancock (2014) . Eksperyment odbył się z Facebookiem i motywowane było mieszanką zagadnień naukowych i praktycznych. W tym czasie dominującym sposobem użytkownikom interakcję z Facebook był Kanał Wiadomości, algorytmicznie kuratorem zestaw Facebook aktualizacje statusu od użytkownika na Facebooku przyjaciół. Niektórzy krytycy Facebook zasugerował, że ponieważ Kanał Aktualności ma większości pozytywne posty-friends pokazano swoje najnowsze Party-może to spowodować użytkownikom smutny, ponieważ ich życie wydaje się mniej ekscytujące w porównaniu. Z drugiej strony, może efekt dokładnie odwrotny; Może widząc swojego znajomego o odpowiednim czasie stałaby czujesz się szczęśliwy? W celu rozwiązania tych konkurujących hipotez oraz do poszerzenia naszej wiedzy o tym, jak emocje danej osoby mają wpływ jej przyjaciół "emocji, Kramer i wsp prowadził eksperyment. Naukowcy umieszczone około 700 tysięcy użytkowników na cztery grupy na jeden tydzień: grupę "negatywności zmniejszona", dla którego posty z negatywnych słów (na przykład, smutny) losowo zablokowane przed pojawieniem się kanał wiadomości; A "pozytywności zmniejszona" grupa, dla których posty z pozytywnych słów (np zadowolony) losowo zablokowane; i dwie grupy kontrolne. W grupie kontrolnej w grupie "negatywności" obniżona, słupki losowo zablokowane w tym samym tempie, jak w grupie "negatywności" zmniejszona, ale bez względu na zawartość emocjonalną. Grupą kontrolną dla grupy "dodatniej" zmniejszona została wykonana w sposób równoległy. Konstrukcja tego eksperymentu pokazano, że odpowiedni zespół sterujący nie zawsze jest bez zmian. A czasami grupa kontrolna otrzymywała leczenia w celu utworzenia precyzyjne porównanie że pytanie wymaga badań. We wszystkich przypadkach, słupki, które zostały zablokowane z RSS Aktualności były nadal dostępne dla użytkowników za pośrednictwem innych częściach stronie na Facebooku.

Kramer i jego koledzy odkryli, że dla uczestników pozytywności zmniejszona stan odsetek pozytywnych słów w ich aktualizacji statusu zmniejszyła się, a odsetek negatywnych słów wzrosła. Z drugiej strony, dla uczestników negatywnych zmniejszona warunkiem, procent pozytywnych czyli zwiększona, a zawartość procentowa słowa negatywne spadła (rysunek 4.23). Jednak te efekty były dość małe: różnica w pozytywnych i negatywnych słów pomiędzy zabiegami i kontroli wynosiła około 1 na 1000 słów.

Rysunek 4.23: Dowody emocjonalne zarażania (Kramer, Guillory i Hancock 2014). Odsetek pozytywnych słów i negatywnych słów warunkach doświadczalnych. Słupki przedstawiają szacowane błędy standardowe.

Rysunek 4.23: Dowody emocjonalne zarażania (Kramer, Guillory, and Hancock 2014) . Odsetek pozytywnych słów i negatywnych słów warunkach doświadczalnych. Słupki przedstawiają szacowane błędy standardowe.

Włożyłam omówienie naukowych aspektów tego eksperymentu w dalszej części czytania na końcu rozdziału, ale niestety, ten eksperyment jest najbardziej znanym generowania debaty etycznej. Zaledwie kilka dni po tym papierze zostało opublikowane w Proceedings of National Academy of Sciences, było ogromne oburzenie z obu naukowców i prasy. Oburzenie po papierze koncentruje się na dwóch głównych punktach: 1) uczestnicy nie zawierały żadnych zgody poza standardowe Facebooku terms-of-service dla leczenia, że jakaś myśl może spowodować szkody dla uczestników oraz 2) badanie nie przeszła trzeciej etyczne Przegląd (Grimmelmann 2015) . Kwestie etyczne poruszone w tej debacie spowodowane czasopismo szybko opublikować rzadki wyraz "redakcyjną troski" o etyce i procesu przeglądu etycznego dla badań (Verma 2014) . W kolejnych latach, eksperyment nadal być źródłem intensywnych dyskusji i sporów, i ten spór może mieć niezamierzony efekt jazdy w cień wiele innych eksperymentów, które są wykonywane przez firmy (Meyer 2014) .

Biorąc pod uwagę, że w tle o emocjonalnej Contagion, Chciałbym teraz pokazać, że 3 R mogą sugerować konkretnych, praktycznych ulepszeń dla prawdziwych badaniach (co może osobiście myślę o etyce tego konkretnego eksperymentu). Pierwszy R jest wymienić: Naukowcy powinni dążyć do zastąpienia eksperymentów z technikami mniej inwazyjnych i ryzykownych, jeśli to możliwe. Na przykład, zamiast przeprowadzania eksperymentu, naukowcy mogli wykorzystany naturalny eksperyment. Jak opisano w rozdziale 2, naturalne eksperymenty są sytuacje, w których coś się dzieje w świecie, który jest zbliżony do losowego przypisania zabiegów (np loterii zdecydować, kto zostanie wcielony do wojska). Zaletą naturalnego eksperymentu jest to, że badacz nie musi dostarczać zabiegi; środowisko robi to za ciebie. Innymi słowy, z naturalnym eksperymencie, nie byłoby potrzebne, aby doświadczalnie manipulować ludzi Kanały naukowcy.

W rzeczywistości, prawie równocześnie z emocjonalnym doświadczeniu Contagion, Coviello et al. (2014) wykorzystywał to, co można by nazwać emocjonalną Contagion naturalnym eksperymentem. Ich podejście, które wykorzystuje technikę zwaną zmiennych instrumentalnych, jest nieco skomplikowane, jeśli nigdy nie widziałem go wcześniej. Tak więc, w celu wyjaśnienia, dlaczego to było potrzebne, zbudujmy do niego. Pierwszy pomysł, że niektórzy badacze mogą się uczyć emocjonalnego zarażenia byłoby porównanie swoich postów w dniach gdzie News Feed był bardzo pozytywny do swoich stanowisk w dniach gdzie News Feed była bardzo negatywna. Takie podejście byłoby dobrze, gdyby celem było po prostu przewidzieć emocjonalną treść postów, ale takie podejście jest problematyczne, jeśli celem jest badanie przyczynowego wpływu News żerują na swoich stanowiskach. Aby zobaczyć problem z tym wzorem, należy rozważyć Dziękczynienia. W Stanach Zjednoczonych, pozytywne i negatywne posty skok posty spadają na Święto Dziękczynienia. Tak więc, w Święto Dziękczynienia, naukowcy mogli zobaczyć, czy News Feed była bardzo pozytywna i że pisał pozytywne rzeczy, jak również. Ale wasze pozytywne posty mogły być spowodowane przez Dziękczynienia nie treścią swojej News Feed. Zamiast tego, w celu oszacowania efektu przyczynowego naukowcy potrzebują czegoś, który zmienia zawartość swojej News Feed bez bezpośredniego zmieniając swoje emocje. Na szczęście istnieje coś takiego jak to dzieje się cały czas: na pogodę.

Coviello i jego współpracownicy odkryli, że deszczowy dzień w czyimś miasta będzie przeciętnie zmniejszyć odsetek stanowisk, które są pozytywne o około 1 punkt procentowy oraz zwiększenie odsetka stanowisk, które są ujemne o około 1 punkt procentowy. Następnie Coviello i współpracownicy wykorzystać tę fakt studiowania emocjonalnego zarażenia bez konieczności manipulowania eksperymentalnie niczyjej News Feed. W istocie to, co zrobili jest miarą, jak swoje posty wpłynęły pogodzie w miastach, gdzie mieszkają twoi przyjaciele. Aby zrozumieć, dlaczego ma to sens, wyobraźmy sobie, że mieszkasz w Nowym Jorku, a masz znajomego, który mieszka w Seattle. Teraz wyobraź sobie, że pewnego dnia zaczyna padać w Seattle. Ten deszcz w Seattle nie będą miały bezpośredni wpływ na nastrój, ale będzie to powodować News Feed za mniej pozytywne i negatywne, bo więcej stanowisk znajomego. Zatem, deszcz w Seattle losowo manipuluje swoją News Feed. Wyłączenie tej intuicji do rzetelnej procedury statystycznej jest skomplikowana (i dokładne podejście wykorzystywane przez Coviello i współpracownikami jest nieco nietypowe), więc mam umieścić bardziej szczegółowe omówienie w dalszej części czytania. Najważniejszą rzeczą do zapamiętania o Coviello i podejście kolegi jest to, że pozwoliła im studiować emocjonalnego zarażenia bez konieczności przeprowadzenia eksperymentu, które potencjalnie mogłyby zaszkodzić uczestników i może być tak, że w wielu innych ustawień, które można wymienić doświadczenia z innymi techniki.

Po drugie w 3 Rs jest Zawęź: Naukowcy powinni dążyć do doskonalenia zabiegi w celu spowodowania najmniejszą szkodę możliwe. Na przykład, zamiast blokowania treści, które było dodatnie lub ujemne, naukowcy mogli zwiększyło zawartość, która była pozytywna lub negatywna. To zwiększenie projekt byłby zmienił treść emocjonalną uczestników Kanały, ale byłoby zająć jeden z niepokojem, że krytycy wyrażona: że eksperymenty mogły spowodować uczestnikom przegap ważnych informacji w ich News Feed. Przy projektowaniu używanego przez Kramera i jego współpracowników, komunikat, że jest ważne, ponieważ może być zablokowana za jednego, że nie jest. Jednak w konstrukcji przypominającej, komunikaty, które będą przemieszczać się te, które są mniej istotne.

Po trzecie wreszcie, R zmniejszają: badacze należy dążyć do zmniejszenia liczby uczestników w eksperymencie, jeśli to możliwe. W przeszłości, to zmniejszenie się w sposób naturalny, ponieważ koszty zmienne eksperymentów analogowych była wysoka, w którym zachęca badania w celu optymalizacji ich projektowania i analizy. Jednak, gdy jest zero kosztów zmiennych danych, naukowcy nie stoją w obliczu presji kosztowej na wielkość ich doświadczeniu, a to ma potencjał, aby doprowadzić do niepotrzebnie dużych eksperymentów.

Na przykład, Kramer i jego współpracownicy mogli użyć informacji wstępnej obróbki o ich uczestników, takich jak obróbka wstępna księgowania zachowania-aby ich analiza bardziej wydajne. Dokładniej, niż porównanie odsetka pozytywnych słowy, w warunkach przetwarzania i sterowania, Kramer i współpracownicy mogli porównano zmianę proporcji między dodatnimi słowy warunkach; podejście, które często nazywane jest ściśle związana z mieszanej konstrukcji, które opisałem wcześniej w rozdziale (Rysunek 4.5) Różnica-in-różnice i. Oznacza to, że dla każdego uczestnika, naukowcy mogli stworzyli wynik zmiany (zachowanie po leczeniu - zachowanie sprzed leczenia), a następnie porównano wyniki zmiana uczestników warunków leczenia i kontroli. Podejście to różnica w-różnic jest statystycznie bardziej skuteczne, co oznacza, że badacze w stanie osiągnąć pewności statystycznej, przy znacznie mniejszych próbek. Innymi słowy, nie traktując uczestników jak "ustrojstwa", naukowcy często mogą uzyskać dokładniejsze szacunki.

Ale bez surowych danych trudno jest dokładnie wiedzieć, ile bardziej efektywne podejście Różnica-in-różnice byłby w tym przypadku. Jednak, Deng et al. (2013) poinformował, że w trzech doświadczeniach internetowych w wyszukiwarce Bing byli w stanie zmniejszyć wariancję ich szacunków o około 50%, a podobne wyniki odnotowano w niektórych eksperymentach online na Netflix (Xie and Aurisset 2016) . To 50% redukcji wariancji oznacza, że emocjonalnego Naukowcy zarażenia może udało się obniżyć próbkę w połowie, gdyby skorzystał z nieco innych metod analizy. Innymi słowy, z niewielką zmianą w analizie 350.000 osób może zostały oszczędzone udział w eksperymencie.

W tym momencie można się zastanawiać, dlaczego naukowcy powinni dbać o ile 350.000 osób było w emocjonalny Contagion niepotrzebnie. Istnieją dwa szczególne cechy emocjonalnej Contagion które sprawiają problem z nadmiernym rozmiarem potrzeby, a te cechy są wspólne dla wielu cyfrowych eksperymentów polowych: 1) nie ma pewności, czy eksperyment będzie działać szkodliwie na przynajmniej niektórych uczestników i 2) uczestnictwo nie było dobrowolny. W doświadczeniach z tych cech jest to wskazane, aby utrzymać eksperymentów tak małe, jak to możliwe.

Podsumowując, trzy R's-zamień, zdefiniować i zmniejszyć-dostarczać zasad, które mogą pomóc naukowcom budować etyki do swoich projektów eksperymentalnych. Oczywiście, każdy z tych możliwych zmian emocjonalnych Contagion wprowadza kompromisów. Na przykład, dowody z naturalnych eksperymentów nie zawsze jest tak czysty, jak dowody z randomizowanych eksperymentów i pobudzanie może być bardziej logistycznie trudne do zrealizowania, niż bloku. Tak więc, celem tych zmian nie sugerując było domyślać decyzje innych badaczy. To raczej w celu zilustrowania, jak te trzy R mógłby być stosowany w sposób realistyczny sytuacji.