Dalsze komentarzem

Ten odcinek jest przeznaczony do stosowania jako odniesienie, a nie należy odczytywać jako narracji.

  • Wprowadzenie (sekcja 4.1)

Pytania na temat przyczynowości w badaniach społecznych są często złożone i skomplikowane. Dla fundamentalne podejścia do przyczynowości w oparciu o wykresy przyczynowych, zobacz Pearl (2009) , a dla fundamentalne podejścia opartego na efektach potencjalnych patrz Imbens and Rubin (2015) (oraz dodatek technicznego w tym rozdziale). Dla porównania między tymi dwoma podejściami, zobacz Morgan and Winship (2014) . Do formalnego podejścia do definiowania confounder patrz VanderWeele and Shpitser (2013) .

W rozdziale I stworzył to, co wydawało się jasne linii pomiędzy naszą zdolność do podejmowania przyczynowych szacunki na podstawie danych doświadczalnych i innych eksperymentów. W rzeczywistości, myślę, że rozróżnienie jest rozmyte. Na przykład, każdy przyznaje, że palenie powoduje raka, mimo że nigdy nie zrobił randomizacją eksperyment, który zmusza ludzi do palenia. Dla doskonałych zabiegów długości książka na dokonywanie szacunków przyczynowych z danych nieeksperymentalnych patrz Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) oraz Dunning (2012) .

Rozdziały 1 i 2 Freedman, Pisani, and Purves (2007) oferują wyraźne wprowadzenie do różnic między eksperymentów kontrolowanych eksperymentach, a randomizacją eksperymentów.

Manzi (2012) dostarcza fascynującego i czytelny wprowadzenie do filozoficznych i statystycznych podstaw z randomizowanych badań kontrolowanych. Zapewnia również interesujące przykłady pochodzące z rzeczywistych moc doświadczeń w biznesie.

  • Jakie są doświadczenia? (Sekcja 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) zapewniają dobre wstępy do aspektów statystycznych projektowania i analizy eksperymentalnej. Ponadto, istnieją doskonałe zabiegi z wykorzystaniem doświadczeń w wielu różnych dziedzin: ekonomia (Bardsley et al. 2009) , Socjologia (Willer and Walker 2007; Jackson and Cox 2013) , psychologia (Aronson et al. 1989) , Politologia (Morton and Williams 2010) i polityka społeczna (Glennerster and Takavarasha 2013) .

Znaczenie rekrutacji uczestników (np próbkowania) jest często niedoceniana w badaniach eksperymentalnych. Jednakże, jeśli efekt leczenia jest niejednorodna w populacji, a następnie próbkowania jest krytyczna. Longford (1999) sprawia, że ten punkt, kiedy wyraźnie opowiada się za badaczy myśli o doświadczeniach jako badanie populacji przypadkowy próbkowania.

  • Dwa wymiary: eksperymenty laboratoryjne pola oraz analogowo-cyfrowy (sekcja 4.3)

Dychotomia że prezentowane między laboratoryjnych i polowych eksperymentów jest nieco uproszczona. W rzeczywistości, inni badacze zaproponowali bardziej szczegółowe typologie, w szczególności te, które oddzielają różne formy doświadczeń polowych (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Ponadto, istnieją dwa inne rodzaje eksperymentów przeprowadzonych przez naukowców społecznych, które nie pasują do laboratorium iw terenie dychotomii. Eksperymentów badawczych i eksperymentów społecznych eksperymentów Survey są eksperymenty z wykorzystaniem infrastruktury istniejących badań i porównanie odpowiedzi na alternatywne wersje Te same pytania (niektóre eksperymenty badania zostały przedstawione w rozdziale 3); Więcej informacji na temat badań ankietowych patrz Mutz (2011) . Eksperymenty społeczne są eksperymenty gdzie leczenie jest jakaś polityka społeczna, które mogą być realizowane tylko przez rząd. Eksperymenty społeczne są ściśle związane z programem oceny. Więcej informacji na temat eksperymentów polityki, patrz Orr (1998) , Glennerster and Takavarasha (2013) i Heckman and Smith (1995) .

Szereg referatów Porównaliśmy laboratoryjnych i polowych eksperymentów in abstracto (Falk and Heckman 2009; Cialdini 2009) i pod względem wyników szczegółowych badań w naukach politycznych (Coppock and Green 2015) , ekonomii (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) i psychologii (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) oferuje piękny projekt badawczy dla porównywania wyników laboratoryjnych i polowych eksperymentów.

Obawy uczestników zmieniają swoje zachowanie, bo wiedzą, że są one ściśle przestrzegane są czasami nazywane efekty popytowe, a one były badane w psychologii (Orne 1962) i ekonomii (Zizzo 2009) . Chociaż w większości związane z eksperymentów laboratoryjnych, te same problemy mogą powodować problemy dla doświadczeń polowych, jak również. W rzeczywistości, efekty popytowe są czasami nazywane Efekt Hawthorne, termin, który wynika z doświadczenia polowego, zwłaszcza słynne eksperymenty oświetlenia który rozpoczął się w 1924 roku w Hawthorne Works w Western Electric Company (Adair 1984; Levitt and List 2011) . Oba efekty zapotrzebowania i efekty głogu są ściśle związane z pomysłem reaktywnego pomiaru omówione w rozdziale 2 (patrz również Webb et al. (1966) ).

Historia doświadczeniach polowych został opisany w ekonomii (Levitt and List 2009) , politologii (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psychologia (Shadish 2002) i polityka publiczna (Shadish and Cook 2009) . Jedną z dziedzin nauk społecznych, gdzie doświadczenia polowe szybko stał się znaczącym jest rozwój międzynarodowy. W przypadku pozytywnej opinii w tej pracy w ekonomii patrz Banerjee and Duflo (2009) , oraz do krytycznej oceny patrz Deaton (2010) . Dla przeglądu tych prac w dziedzinie nauk politycznych zobacz Humphreys and Weinstein (2009) . Wreszcie, wyzwania etyczne związane z doświadczeń polowych zostały zbadane politologii (Humphreys 2015; Desposato 2016b) i ekonomii rozwoju (Baele 2013) .

W rozdziale I zasugerował, że informacja wstępna obróbka może być wykorzystane do poprawy dokładności szacowanych efektów leczenia, ale jest jakaś debata na temat tego podejścia: Freedman (2008) , Lin (2013) , a Berk et al. (2013) ; zobacz Bloniarz et al. (2016) , aby uzyskać więcej informacji.

  • Wyjście poza prostych eksperymentów (sekcja 4.4)

Wybrałam się skupić na trzech pojęć: ważność, różnorodność efektów leczenia i mechanizmów. Pojęcia te mają różne nazwy w różnych dziedzinach. Na przykład, psychologowie mają tendencję do poruszania się poza prostych eksperymentów, koncentrując się na mediatorów i moderatorów (Baron and Kenny 1986) . Pomysł mediatorów jest rejestrowany przez co nazywam mechanizmów, a pomysł moderatorów zostaje porwany przez co nazywam ważności zewnętrzne (np, to wyniki eksperymentu byłaby inna, gdyby była prowadzona w różnych sytuacjach) oraz niejednorodność efektów leczenia ( na przykład, są większe skutki dla niektórych ludzi niż innych ludzi).

Eksperyment Schultz et al. (2007) przedstawiono sposób społeczne teorie mogą być wykorzystane do projektowania skutecznych zabiegów. Dla bardziej ogólnego argumentu o roli teorii w projektowaniu skutecznych interwencji, zobacz Walton (2014) .

  • Ważność (sekcja 4.4.1)

Pojęcia ważności wewnętrznej i zewnętrznej zostały po raz pierwszy wprowadzone w Campbell (1957) . Zobacz Shadish, Cook, and Campbell (2001) dla bardziej szczegółowej historii i staranne opracowanie ważności zawarcia statystycznych, wewnętrznej ważności, trafności i zewnętrzną ważność.

Aby otrzymać przegląd zagadnień związanych statystycznej ważności zawarcia w eksperymentach patrz Gerber and Green (2012) (dla perspektywy nauk społecznych) oraz Imbens and Rubin (2015) (dla perspektywy statystycznej). Niektóre zagadnienia statystycznej ważności zawarcia które powstają zwłaszcza w doświadczeniach polowych internetowych obejmują takie zagadnienia, jak obliczeniowo wydajnych metod tworzenia przedziałów ufności z danych zależnych (Bakshy and Eckles 2013) .

Ważność wewnętrzna może być trudne do osiągnięcia w złożonych doświadczeniach polowych. Patrz, na przykład, Gerber and Green (2000) , Imai (2005) oraz Gerber and Green (2005) do dyskusji na temat realizacji złożonego pola eksperymentu o głosowaniu. Kohavi et al. (2012) i Kohavi et al. (2013) stanowią wprowadzenie do wyzwań przedziału ważności w doświadczeniach polowych internetowych.

Jeden poważny problem z wewnętrznym ważności ma problemy z randomizacją. Jednym ze sposobów na potencjalne wykrycie problemów z Randomizację porównać grupy doświadczalne i kontrolne zaobserwowania cech. Tego rodzaju porównania nazywa kontrola równowagi. Zobacz Hansen and Bowers (2008) dla statystycznego podejścia do równowagi kontrole i zobacz Mutz and Pemantle (2015) do obaw o kontroli wagi. Na przykład, za pomocą wagi sprawdzić Allcott (2011) stwierdzili, że istnieją pewne dowody, że losowanie nie został zrealizowany poprawnie w trzech doświadczeniach w niektórych eksperymentach OPower (patrz tabela 2 Placówki 2, 6 i 8). W przypadku innych metod, patrz Imbens and Rubin (2015) , rozdział 21.

Inne ważne kwestie związane z wewnętrznym ważności są: 1) jednostronny niezgodności, gdzie nie wszyscy w grupie leczonej faktycznie otrzymane leczenia, 2) dwustronną niezgodności, gdzie nie wszyscy w grupie leczonej otrzymuje leczenie i niektóre osoby z grupy kontrolnej otrzymywały leczenie, 3) na ścieranie, w których wyniki nie zostały zmierzone dla niektórych uczestników, 4) interferencyjne, gdzie leczenie wylewa od ludzi w warunkach obróbki ludziom w stanie kontrolnym. Zobacz Gerber and Green (2012) Rozdziały 5, 6, 7 i 8 więcej na każdym z tych zagadnień.

Więcej informacji na temat ważności konstruktu, zobacz Westen and Rosenthal (2003) , a bardziej na ważności konstruktu w dużych źródeł danych, Lazer (2015) oraz w rozdziale 2 niniejszej książce.

Jest jeden aspekt zewnętrznej ważności ustawienie, gdzie interwencja jest testowany. Allcott (2015) zapewnia staranne teoretyczne i empiryczne leczenie wyboru lokalizacji stronniczości. Ten problem jest również omówione Deaton (2010) . Oprócz tego, że replikowane w wielu miejscach, interwencja Home Energy Report został również niezależnie badane przez wielu grup badawczych (np Ayres, Raseman, and Shih (2013) ).

  • Różnorodność efektów leczenia (sekcja 4.4.2)

Za doskonałą przegląd niejednorodność efektów terapeutycznych w doświadczeniach polowych, patrz rozdział 12 Gerber and Green (2012) . Dla wprowadzenia do heterogeniczności efektów leczenia w badaniach medycznych, zobacz Kent and Hayward (2007) , Longford (1999) oraz Kravitz, Duan, and Braslow (2004) . Niejednorodność skutków leczenia na ogół skupiają się na różnice w oparciu o właściwości do obróbki wstępnej. Jeśli jesteś zainteresowany heterogeniczności opartego na wynikach po leczeniu, potem bardziej złożone podej potrzebne są takie jak główny stratyfikacji (Frangakis and Rubin 2002) ; patrz Page et al. (2015) o dokonanie przeglądu.

Wielu badaczy szacują heterogeniczność efektów leczenia z wykorzystaniem regresji liniowej, ale nowsze metody polegają na uczeniu maszynowym, na przykład Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , a Athey and Imbens (2016a) .

Istnieje pewien sceptycyzm wobec ustaleń różnorodność efektów z powodu wielu problemów porównawczych i "połowy". Istnieje wiele metod statystycznych, które mogą pomóc w rozwiązaniu problemów dotyczących wielokrotnego porównania (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Jednym ze sposobów na obawy związane z "połowy" jest rejestracja wstępna, która staje się coraz bardziej powszechne w psychologii (Nosek and Lakens 2014) , politologia (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) i ekonomia (Olken 2015) .

W badaniach Costa and Kahn (2013) tylko około połowa gospodarstw domowych w eksperymencie mogły być połączone z informacjami demograficznymi. Czytelnicy zainteresowani szczegółami i możliwych problemach z tym analizy powinny odnosić się do oryginalnego papieru.

  • Mechanizmy (sekcja 4.4.3)

Mechanizmy są niezwykle ważne, ale okazują się być bardzo trudne do zbadania. Badania na temat mechanizmów ściśle związane z badaniem mediatorów w psychologii (ale patrz też VanderWeele (2009) na precyzyjne porównanie tych dwóch idei). Metody statystyczne do mechanizmów, takich jak znalezienie podejścia opracowanego w Baron and Kenny (1986) , są dość powszechne. Niestety, okazuje się, że procedury te są uzależnione od pewnych silnych założeniach (Bullock, Green, and Ha 2010) i cierpią, gdy istnieją różne mechanizmy, jak można by się spodziewać w wielu sytuacjach (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) i Imai and Yamamoto (2013) oferują kilka ulepszonych metod statystycznych. Ponadto VanderWeele (2015) oferuje leczenie książka LP z wielu ważnych wyników, w tym kompleksowego podejścia do analizy wrażliwości.

Oddzielne podejście skupia się na doświadczeniach, które próbują manipulować bezpośrednio mechanizmu (np dając żeglarzy witamina C). Niestety, w wielu ustawieniach nauk społecznych często zdarzają się różne mechanizmy i trudno jest zaprojektować zabiegi, które zmieniają jeden, bez zmiany innych. Niektóre podejścia eksperymentalne mechanizmów zmieniających są opisane w Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , a Pirlott and MacKinnon (2016) .

Wreszcie, mechanizmy mają również długą historię w filozofii nauki, jak opisali Hedström and Ylikoski (2010) .

  • Korzystanie z istniejącymi środowiskami (sekcja 4.5.1.1)

Więcej informacji na temat korzystania z badań korespondencyjnych i badań kontrolnych w celu zmierzenia dyskryminacji patrz Pager (2007) .

  • Zbuduj swój własny eksperyment (sekcja 4.5.1.2)

Najczęstszym sposobem rekrutacji uczestników do eksperymentów, które budują to Amazon Mechanical Turk (MTurk). Ponieważ MTurk naśladuje aspekty tradycyjnych eksperymentów płatnych laboratoryjnych ludzi do wykonywania zadań, że nie zrobi dla swobodnie wielu badaczy już zaczęli korzystać Turkers (pracowników na MTurk) jako uczestnicy ludziach eksperymenty powodując szybsze i tańsze zbierania danych niż tradycyjne na terenie kampusu eksperymenty laboratoryjne (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Największą siłą eksperymentów z uczestników rekrutowanych z MTurk są logistyczne: pozwalają one badaczom szybko i w razie potrzeby rekrutacji uczestników. Podczas gdy laboratorium eksperymenty mogą potrwać kilka tygodni, aby biegać i doświadczenia polowe może trwać miesiące w konfiguracji, eksperymenty z uczestników rekrutowanych z MTurk mogą być uruchamiane w dniach. Na przykład, Berinsky, Huber, and Lenz (2012) były w stanie zatrudnić 400 obiektów w jeden dzień, aby wziąć udział w eksperymencie 8 minut. Ponadto, te uczestnicy mogą być zatrudnieni na praktycznie dowolny cel (w tym badań i współpracy masowej, jak to omówiono w rozdziałach 3 i 5). Ta łatwość rekrutacji oznacza, że ​​naukowcy mogą uruchomić sekwencje powiązanych eksperymentów w krótkim odstępie czasu.

Przed rekrutacją uczestników z MTurk dla własnych doświadczeniach, istnieją cztery ważne rzeczy wiedzieć. Po pierwsze, wielu badaczy niespecyficznej sceptycyzm eksperymentów obejmujących Turkers. Ponieważ ten sceptycyzm nie jest specyficzna, trudno jest przeciwdziałać dowody. Jednak po kilku latach badań z zastosowaniem Turkers, teraz możemy stwierdzić, że ten sceptycyzm nie jest specjalnie potrzebne. Odnotowano wiele badań porównujących dane demograficzne Turkers do innych populacji i wiele badań porównujących wyniki eksperymentów z Turkers do wyników z innych populacji. Biorąc pod uwagę wszystkie te prace, myślę, że najlepszym sposobem, aby myśleć o tym, że jest to rozsądne Turkers próbka wygoda, podobnie jak studenci, ale nieco bardziej zróżnicowaną (Berinsky, Huber, and Lenz 2012) . Tak więc, podobnie jak uczniowie są rozsądne populacji dla niektórych, ale nie wszystkie badania eksperymentalne, Turkers są rozsądne ludności dla niektórych, ale nie wszystkie badania. Jeśli zamierzasz pracować z Turkers, to ma sens, aby przeczytać wiele z tych badań porównawczych i zrozumieć swoje niuanse.

Po drugie, naukowcy opracowali najlepsze praktyki dla zwiększania wewnętrznej ważności eksperymentów Turk i należy poznać i wykonać następujące najlepsze praktyki (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Na przykład, badacze przy użyciu Turkers są zachęcani do korzystania przesiewacze usunąć nieuważnych uczestników (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (ale patrz też DJ Hauser and Schwarz (2015b) i DJ Hauser and Schwarz (2015a) ). Jeśli nie usuwać nieuważnych uczestników, wtedy każdy efekt leczenia może być wyprane przez hałas wprowadzanego z nieuważnych uczestników, aw praktyce liczba nieuważnych uczestników może być znaczna. W eksperymencie Huber i współpracowników (2012) około 30% uczestników nie udało podstawowe przesiewacze uwagę. Innym problemem wspólnego z Turkers nie jest naiwne uczestnicy (Chandler et al. 2015) .

Po trzecie, w odniesieniu do niektórych innych postaciach eksperymentów cyfrowych eksperymenty MTurk nie skali; Stewart et al. (2015) szacuje, że w danym momencie istnieje tylko około 7000 osób na MTurk.

Wreszcie, należy wiedzieć, że MTurk jest wspólnotą z własnymi zasadami i normami (Mason and Suri 2012) . W ten sam sposób, że można spróbować, aby dowiedzieć się o kulturze kraju, w którym jechaliśmy do uruchomienia swoich eksperymentów, należy spróbować, aby dowiedzieć się więcej o kulturze i norm Turkers (Salehi et al. 2015) . A trzeba wiedzieć, że Turkers będą rozmawiać o swoim doświadczeniu, jeśli zrobisz coś niewłaściwe lub nieetyczne (Gray et al. 2016) .

MTurk jest niezwykle wygodny sposób rekrutacji uczestników do swoich eksperymentów, czy są one lab-podobne, takie jak Huber, Hill, and Lenz (2012) , albo bardziej pola podobne, takie jak Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , a Mao et al. (2016) .

  • Zbuduj swój własny produkt (sekcja 4.5.1.3)

Jeśli myślisz o próbę stworzenia własnego produktu, polecam przeczytanie porady oferowane przez Grupę MovieLens w Harper and Konstan (2015) . Kluczową kwestią z ich doświadczenia wynika, że ​​dla każdego udanego projektu istnieje wiele, wiele błędów. Na przykład, grupa MovieLens uruchomiła inne produkty takie jak GopherAnswers które były kompletne porażki (Harper and Konstan 2015) . Innym przykładem naukowca uszkodzonej podczas próby zbudować produkt jest próbą Edwarda Castronova do budowania gry online o nazwie Arden. Pomimo $ 250,000 finansowania, projekt okazał się klapą (Baker 2008) . Projekty takie jak GopherAnswers i Arden są niestety znacznie bardziej powszechne niż projekty jak MovieLens. Wreszcie, kiedy powiedziałem, że nie wiem o wszelkich innych badaczy, które udało się stworzyć produkty do wielokrotnego eksperymentowania oto moje kryteria: 1) uczestnicy używać produktu ze względu na to, co zapewnia im (np, nie są one płatne i nie są one wolontariusze pomagają nauki) i 2) produkt był używany przez więcej niż jednego odrębnego eksperymentu (czyli nie ten sam eksperyment kilka razy z różnych basenów uczestników). Jeżeli znasz inne przykłady, proszę dać mi znać.

  • Partner z silnym (sekcja 4.5.2)

Słyszałem ideę Quadrant Pasteura omawianym częściej w firmach technologicznych, a to pomaga w organizacji wysiłków badawczych w Google (Spector, Norvig, and Petrov 2012) .

Bond i studium współpracowników (2012) również próbuje wykryć wpływ tych zabiegów na przyjaciół, którzy je otrzymali. Ze względu na projekt doświadczenia te skutki uboczne są trudne do wykrycia czysty; zainteresowani czytelnicy powinni widzieć Bond et al. (2012) dla bardziej dogłębnej dyskusji. Ten eksperyment jest częścią długiej tradycji doświadczeń w zakresie nauk politycznych na działania zachęcające do głosowania (Green and Gerber 2015) . Te eksperymenty get out-the-głosowanie są powszechne w części, ponieważ są one w kwadrancie Pasteura. Oznacza to, że istnieje wiele ludzi, którzy są zmotywowani do zwiększenia głosu i głosowania mogą być ciekawym zachowaniem przetestować bardziej ogólne teorie na temat zmiany zachowań i wpływu społecznego.

Inni badacze przedstawili informacje dotyczące prowadzenia doświadczeń polowych z organizacji partnerskich, takich jak partie polityczne, organizacje pozarządowe i przedsiębiorstwa (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Inni oferowane porady, jak współpraca z organizacjami może mieć wpływ projektów badawczych (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnerstwo może również prowadzić do problemów etycznych (Humphreys 2015; Nickerson and Hyde 2016) .

  • Doradztwo projektowe (sekcja 4.6)

Jeśli zamierzasz stworzyć plan analizy przed uruchomieniem eksperymentu, proponuję zacząć od czytania wytyczne raportowania. Małżonka (Jednolity standard raporty z badań) wytyczne zostały opracowane w medycynie (Schulz et al. 2010) i modyfikowane dla badań społecznych (Mayo-Wilson et al. 2013) . Podobną zestaw wytycznych został opracowany przez redakcję Journal of Experimental Politologii (Gerber et al. 2014) (patrz także Mutz and Pemantle (2015) oraz Gerber et al. (2015) ). Wreszcie, wytyczne raportowania zostały opracowane w psychologii (Group 2008) , patrz również Simmons, Nelson, and Simonsohn (2011) .

Jeśli tworzysz plan analizy należy rozważyć pre-rejestracji, ponieważ rejestracja wstępna zwiększy pewność, że inni mają w swoich wynikach. Ponadto, jeśli pracujesz z partnerem, to ograniczyć zdolność partnera do zmiany analizy po obejrzeniu wyników. Rejestracja wstępna jest coraz bardziej powszechne w psychologii (Nosek and Lakens 2014) , politologia (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , a ekonomia (Olken 2015) .

Tworząc swój plan pre-analiza powinna mieć świadomość, że niektórzy badacze również użyć regresji i pokrewnych metod, aby poprawić precyzję szacowanego efektu leczenia, a tam jest jakaś debata na temat tego podejścia: Freedman (2008) , Lin (2013) , oraz Berk et al. (2013) ; zobacz Bloniarz et al. (2016) , aby uzyskać więcej informacji.

Doradztwo projektowe specjalnie dla doświadczeń polowych internetowych prezentowane są także w Konstan and Chen (2007) i Chen and Konstan (2015) .

  • Tworzenie zerowych kosztów zmiennych danych (sekcja 4.6.1)

Więcej informacji na temat eksperymentów MusicLAB patrz Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) oraz Salganik (2007) . Więcej informacji na temat zwycięzca bierze wszystkich rynkach, zobacz Frank and Cook (1996) . Dla bardziej ogólnie na untangling szczęścia i umiejętności, patrz Mauboussin (2012) , Watts (2012) oraz Frank (2016) .

Nie ma innego podejścia do wyeliminowania płatności uczestnik, który naukowcy powinni używać ostrożnie: poboru. W wielu doświadczeniach polowych internetowych uczestnicy są w zasadzie wcielony do eksperymentów i nigdy zrekompensowane. Przykłady takiego podejścia obejmują Restivo i van de Rijt za (2012) eksperyment na nagrody w Wikipedii i Bond i kolegi (2012) eksperyment na zachęcanie ludzi do głosowania. Eksperymenty te tak naprawdę nie mają zerowe koszty zmienne, mają zerowy koszt zmienny dla badaczy. Mimo że koszt wielu z tych eksperymentów jest niezwykle mała do każdego uczestnika, małe koszty nałożone ogromna liczba uczestników można dodać szybko. Naukowcy z systemem masowych eksperymentów internetowych często uzasadnia znaczenie małych Przewidywane efekty leczenia, mówiąc, że te małe efekty mogą stać się ważne, gdy zastosowane do wielu ludzi. Dokładnie to samo myślenie odnosi się do kosztów, które naukowcy nakładają na uczestników. Jeśli eksperymenty powoduje milion ludzi tracić jedną minutę, eksperyment nie jest bardzo szkodliwe dla konkretnej osoby, ale łącznie nie jest zmarnowany prawie dwa lata czasu.

Innym podejściem do tworzenia zerowego zapłatę kosztów zmiennych dla uczestników jest użycie loterii, podejście, które zostało również wykorzystane w badaniach ankietowych (Halpern et al. 2011) . Wreszcie się więcej o projektowaniu przyjemny user-doświadczenia patrz Toomim et al. (2011) .

  • Wymienić, zdefiniować i zmniejszyć (sekcja 4.6.2)

Oto oryginalne definicje trzech R, od Russell and Burch (1959) :

"Wymiana oznacza podstawienie dla świadomych żywych zwierząt wyższych materiału insentient. Zmniejszenie oznacza zmniejszenie liczby zwierząt wykorzystanych w celu uzyskania informacji o określonej wysokości i precyzji. Udoskonalenie oznacza każde zmniejszenie częstości występowania lub nasilenia nieludzkich procedur stosowanych do tych zwierząt, które wciąż muszą być wykorzystywane. "

Trzy R, że proponuję nie zastępują zasady etyczne opisane w rozdziale 6. Przeciwnie, są one bardziej rozbudowany wersji jednej z tych zasad, dobroczynność, specjalnie dla ustawienia ludzkich doświadczeń.

Rozważając Emotional Contagion, istnieją trzy kwestie etyczne nie należy pamiętać przy interpretacji tego eksperymentu. Po pierwsze, nie jest jasne w jaki sposób rzeczywiste szczegóły doświadczenia połączenia z zastrzeżeń teoretycznej; Innymi słowy, nie ma pytania o ważności konstruktu. Nie jest jasne, że pozytywne i negatywne liczy się słowo są rzeczywiście dobrym wskaźnikiem stanu emocjonalnego uczestników, ponieważ 1) nie jest oczywiste, że słowa, które ludzie pocztowe są dobrym wskaźnikiem ich emocje i 2) nie jest jasne, że szczególna technika analizy nastrojów, że naukowcy wykorzystali jest w stanie wiarygodnie wywnioskować emocje (Beasley and Mason 2015; Panger 2016) . Innymi słowy, nie może być zły miarą tendencyjne sygnału. Po drugie, konstrukcja i analiza eksperymentu nie mówi nam nic o tym, kto był najbardziej wpłynęły (czyli nie ma analiza zróżnicowania efektów leczenia) i co może być mechanizmem. W tym przypadku naukowcy miał wiele informacji na temat uczestników, ale były one zasadniczo traktowane jako widgety w analizie. Po trzecie, rozmiar efekt w tym eksperymencie była bardzo mała; różnicę pomiędzy warunkami leczenia i kontroli wynosi około 1 na 1000 słów. W swoim artykule, Kramer i jego współpracownicy sprawiają sprawę, że efektem tej wielkości jest ważna, ponieważ setki milionów ludzi na dostęp do ich News Feed każdego dnia. Innymi słowy, Twierdzą, że nawet małe efekty, które są dla każdej osoby są duże łącznie. Nawet jeśli było przyjąć tego argumentu, to nadal nie jest jasne, czy efekt ten rozmiar jest ważny w odniesieniu do bardziej ogólnych kwestii naukowych dotyczących emocjonalnego zarażenia. Więcej informacji na temat sytuacji, w ​​których małe efekty są ważne patrz Prentice and Miller (1992) .

W odniesieniu do pierwszego badania (wymiana), porównując Emotional Contagion eksperyment (Kramer, Guillory, and Hancock 2014) i naturalny eksperyment emocjonalnego zarażenia (Coviello et al. 2014) oferuje pewne ogólne wnioski dotyczące kompromisów związanych z przechodzeniem od eksperymentów fizycznych eksperymentów (i innych metod, takich jak dopasowanie tę próbę zbliżania eksperymenty w danych nieeksperymentalnych, patrz rozdział 2). Oprócz korzyści etycznych, przełączanie z eksperymentalnych badań nieeksperymentalnych także pozwala naukowcom badać zabiegi, które są oni w stanie logistycznie wdrożyć. Te zalety etyczne i logistyczne są w cenie, jednak. Z naturalnych eksperymentów naukowcy mają mniejszą kontrolę nad rzeczami takimi jak rekrutacja uczestników, randomizacji oraz rodzaj zastosowanego leczenia. Na przykład, jedno ograniczenie opadów jako jest fakt, że zwiększa on dodatni i zmniejsza negatywne. W badaniach eksperymentalnych, jednak Kramer i jego współpracownicy byli w stanie dostosować pozytywność i negatywność niezależnie.

Szczególne podejście wykorzystywane przez Coviello et al. (2014) została uszczegółowiona w Coviello, Fowler, and Franceschetti (2014) . Wprowadzenie do zmiennych instrumentalnych patrz Angrist and Pischke (2009) (mniej formalna) lub Angrist, Imbens, and Rubin (1996) (bardziej formalny). Dla sceptycznej oceny zmiennych instrumentalnych patrz Deaton (2010) , oraz wprowadzenie do zmiennych instrumentalnych o słabych instrumentów (deszcz jest słabym instrumentem), patrz Murray (2006) .

Mówiąc bardziej ogólnie, to dobry wstęp do naturalnych eksperymentów jest Dunning (2012) , a Rosenbaum (2002) , Rosenbaum (2009) , a Shadish, Cook, and Campbell (2001) oferują dobre pomysły dotyczące szacowania skutków przyczynowych bez eksperymentów.

Pod względem drugiego R (uszlachetnianie), istnieją kompromisy naukowe i logistyczne, gdy rozważa zmianę konstrukcji emocjonalnej Contagion z blokowania wiadomości do pobudzenia posty. Na przykład, może się zdarzyć, że realizacja techniczna RSS Aktualności sprawia, że ​​jest znacznie łatwiej zrobić eksperyment z blokowaniem posty zamiast eksperymentu stymulowanie posty (zauważ, że eksperyment z blokowaniem posty mogą być realizowane w postaci warstwy na Najwięcej systemu News Feed bez konieczności zmiany systemu bazowego). Z naukowego punktu widzenia, jednak teoria skierowana przez eksperymentu nie wyraźnie sugerują jeden projekt nad drugim.

Niestety, nie jestem świadomy znacznego stanu badań na temat względnych zalet blokowania i zwiększenie zawartości w paszy News. Również nie widziałem wiele badań na temat rafinacji zabiegi stają się mniej szkodliwe; Jedynym wyjątkiem jest Jones and Feamster (2015) , który uważa, że przypadek pomiaru cenzury Internetu (w temacie omówię w rozdziale 6 w stosunku do badania Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

Jeśli chodzi o trzeci R (redukcja), dobre wprowadzenie do tradycyjnej analizy mocy jest Cohen (1988) . zmienne obróbki wstępnej mogą być zawarte w fazie projektowania i etap analizy eksperymentów; Rozdział 4 Gerber and Green (2012) stanowi dobre wprowadzenie do obu podejść i Casella (2008) zapewnia leczenie bardziej szczegółowe. Techniki, które używają tej informacji wstępnej obróbki w randomizacją są zwykle nazywane albo zablokowane projekty eksperymentalne projekty eksperymentalne lub warstwowe (terminologia nie jest stosowana konsekwentnie w całej społeczności); Techniki te są głęboko związane z warstwowych technik pomiarowych omówione w rozdziale 3. Patrz Higgins, Sävje, and Sekhon (2016) Więcej informacji na temat korzystania z tych wzorów w masowych eksperymentów. Zmienne obróbki wstępnej mogą być również zawarte w fazie analizy. McKenzie (2012) bada się podejście różnicy w swojej różnic analizie doświadczenia polowe bardziej szczegółowo. Zobacz Carneiro, Lee, and Wilhelm (2016) więcej na kompromisy między różnymi podejściami, aby zwiększyć precyzję oszacowania efektów leczenia. Wreszcie, przy podejmowaniu decyzji, czy spróbować włączyć współzmiennych sprzed leczenia w fazie projektowania i analizy (lub oba), istnieje kilka czynników, które należy wziąć pod uwagę. W warunkach, w których naukowcy chcą pokazać, że nie są one "połowy" (Humphreys, Sierra, and Windt 2013) , używając współzmiennych sprzed leczenia w fazie projektowania mogą być pomocne (Higgins, Sävje, and Sekhon 2016) . W sytuacjach, w których uczestnicy przybywają kolejno doświadczeniach polowych zwłaszcza w Internecie, wykorzystujące informacje wstępnemu oczyszczaniu w etapie projektowania może być trudne logistycznie, patrz na przykład Xie and Aurisset (2016) .

Warto dodać trochę intuicji o tym, dlaczego Różnica-in-różnice mogą być o wiele bardziej skuteczne niż różnica-in-pomocy. Wiele wyników online mają bardzo dużą zmienność (patrz przykład Lewis and Rao (2015) i Lamb et al. (2015) ) i są stosunkowo stabilne w czasie. W tym przypadku wynik zmiana będzie miała znacznie mniejszą zmienność, zwiększając moc testu statystycznego. Jednym z powodów tego podchodzić nie jest coraz częściej stosowany jest, że przed ery cyfrowej nie było powszechne mieć wyniki sprzed leczenia. Bardziej konkretny sposób, aby myśleć o tym to sobie wyobrazić eksperyment zmierzyć czy określony rutynowe ćwiczenia powoduje utratę wagi. Jeśli nie podejście Różnica w swojej drodze, twój szacunek będzie musiał zmienność, która pochodzi ze zmienności obciążenia w populacji. Jeśli do podejścia różnicowego w różnicy jednak, że naturalnie występujące różnice w masach usuwany i można łatwiej wykryć różnic spowodowanych przez leczenie.

Jednym ze sposobów, aby zmniejszyć liczbę uczestników eksperymentu jest przeprowadzenie analizy mocy, która Kramer i jego współpracownicy mogli przeprowadzić na podstawie wielkości efektu obserwowanego od naturalnego eksperymentu Coviello et al. (2014) lub wcześniej badania nieeksperymentalnych Kramer (2012) (w rzeczywistości są to działania na końcu tego rozdziału). Zauważ, że to wykorzystanie analizy mocy jest nieco inna niż typowe. W erze analogowej, naukowcy generalnie zrobił analizy mocy, aby upewnić się, że ich badanie nie było zbyt małe (czyli zgodnie z napędem). Teraz jednak naukowcy powinni robić analizy mocy, aby upewnić się, że ich badanie nie jest zbyt duża (tzn nad zasilany).

W końcu uznałem, dodając czwarty R: Repurpose. To znaczy, jeśli naukowcy znajdą się z danymi doświadczalnymi więcej niż muszą zająć swoje pierwotne pytanie badawcze, powinny one modyfikowanie danych zadać nowe pytania. Na przykład, wyobraźmy sobie, że Kramer i jego współpracownicy użyli estymator Różnica-in-różnice i znaleźli się więcej danych niż jest to potrzebne, aby rozwiązać swoje pytanie badawcze. Zamiast nie używając danych w najszerszym zakresie, mogliby badali wielkość efektu w funkcji do obróbki wstępnej emocjonalnej ekspresji. Podobnie jak Schultz et al. (2007) stwierdzili, że efekt leczenia był różny dla lekkich i ciężkich użytkowników, być może skutki RSS Aktualności różniły się dla ludzi, którzy już utrzymanych odpowiedzieć szczęśliwy (lub SAD) wiadomości. Zmiana przeznaczenia może doprowadzić do "połowy" (Humphreys, Sierra, and Windt 2013) i "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , ale te są w dużej mierze dostępne za pomocą kombinacji uczciwy raportowania (Simmons, Nelson, and Simonsohn 2011) , rejestracja wstępna (Humphreys, Sierra, and Windt 2013) oraz metody uczenia maszynowego, które próbują uniknąć nadmiernej sylwetkę.