4.3 Dwa wymiary eksperymentów: laboratorium polowe i analogowo-cyfrowe

Eksperymenty laboratoryjne oferują kontrolę doświadczenia polowe oferują realizmu i cyfrowe doświadczenia polowe łączą kontrolę i realizm w skali.

Eksperymenty mają wiele różnych kształtów i rozmiarów. W przeszłości naukowcy odkryli, że pomocne jest organizowanie eksperymentów wzdłuż kontinuum między eksperymentami laboratoryjnymi a eksperymentami polowymi . Teraz jednak naukowcy powinni także organizować eksperymenty wzdłuż drugiego kontinuum między eksperymentami analogowymi a eksperymentami cyfrowymi . Ta dwuwymiarowa przestrzeń projektowa pomoże ci zrozumieć mocne i słabe strony różnych podejść i podkreśli obszary największej szansy (rysunek 4.1).

Rysunek 4.1: Schemat przestrzeni projektowej dla eksperymentów. W przeszłości eksperymenty różniły się w wymiarze laboratoryjnym. Teraz różnią się także w wymiarze analogowo-cyfrowym. Ta dwuwymiarowa przestrzeń projektowa jest ilustrowana czterema eksperymentami opisanymi w tym rozdziale. Moim zdaniem, obszarem największej szansy są cyfrowe eksperymenty terenowe.

Rysunek 4.1: Schemat przestrzeni projektowej dla eksperymentów. W przeszłości eksperymenty różniły się w wymiarze laboratoryjnym. Teraz różnią się także w wymiarze analogowo-cyfrowym. Ta dwuwymiarowa przestrzeń projektowa jest ilustrowana czterema eksperymentami opisanymi w tym rozdziale. Moim zdaniem, obszarem największej szansy są cyfrowe eksperymenty terenowe.

Jednym z wymiarów, w którym można organizować eksperymenty, jest wymiar pola laboratoryjnego. Wiele eksperymentów w naukach społecznych to eksperymenty laboratoryjne, podczas których studenci wykonują dziwne zadania w laboratorium na zaliczenie kursu. Ten typ eksperymentu dominuje w badaniach psychologicznych, ponieważ umożliwia badaczom tworzenie wysoce kontrolowanych ustawień w celu precyzyjnego izolowania i testowania konkretnych teorii dotyczących zachowań społecznych. Jednak w przypadku niektórych problemów wydaje się nieco dziwne wyciąganie mocnych wniosków na temat ludzkich zachowań od tak niezwykłych ludzi wykonujących tak nietypowe zadania w tak niecodziennym otoczeniu. Obawy te doprowadziły do ​​ruchu w kierunku eksperymentów polowych . Eksperymenty terenowe łączą silny projekt randomizowanych eksperymentów kontrolnych z bardziej reprezentatywnymi grupami uczestników wykonującymi bardziej typowe zadania w bardziej naturalnych warunkach.

Chociaż niektórzy uważają eksperymenty laboratoryjne i polowe za konkurencyjne metody, najlepiej jest myśleć o nich jako o komplementarnych, o różnych mocnych i słabych stronach. Na przykład Correll, Benard, and Paik (2007) wykorzystali zarówno eksperyment laboratoryjny, jak i eksperyment polowy, aby znaleźć źródła "kary macierzyństwa". W Stanach Zjednoczonych matki zarabiają mniej pieniędzy niż kobiety bezdzietne, nawet gdy porównywanie kobiet o podobnych umiejętnościach pracujących na podobnych stanowiskach. Istnieje wiele możliwych wyjaśnień tego schematu, z których jednym jest to, że pracodawcy są uprzedzeni wobec matek. (Co ciekawe, wydaje się, że jest odwrotnie w przypadku ojców: zarabiają więcej niż porównywani bezdzietni mężczyźni.) Aby ocenić ewentualne uprzedzenia wobec matek, Correll i współpracownicy przeprowadzili dwa eksperymenty: jeden w laboratorium i jeden w terenie.

Po pierwsze, w eksperymencie laboratoryjnym powiedzieli uczestnikom, którzy byli studentami studiów licencjackich, że firma prowadzi poszukiwanie pracy dla osoby, która poprowadzi jej nowy dział marketingu na Wschodnim Wybrzeżu. Uczniom powiedziano, że firma chciała ich pomocy w procesie rekrutacji, i poproszono ich o sprawdzenie CV kilku potencjalnych kandydatów oraz o ocenę kandydatów w różnych wymiarach, takich jak inteligencja, ciepło i zaangażowanie w pracę. Ponadto, studenci zostali zapytani, czy zalecają zatrudnienie wnioskodawcy i co polecą jako wynagrodzenie początkowe. Jednak nie podoba się studentom, że życiorysy zostały skonstruowane tak, aby były podobne, z wyjątkiem jednego: niektóre z nich sygnalizowały macierzyństwo (poprzez wpisanie się w związek rodziców-nauczycieli), a inne nie. Correll i współpracownicy stwierdzili, że uczniowie rzadziej zalecają zatrudnianie matek i oferują im niższe wynagrodzenie początkowe. Ponadto, dzięki statystycznej analizie zarówno ocen, jak i decyzji związanych z zatrudnieniem, Correll i współpracownicy stwierdzili, że wady matek były w dużej mierze tłumaczone przez fakt, że zostały ocenione jako niższe pod względem kompetencji i zaangażowania. Tak więc ten eksperyment laboratoryjny pozwolił Correllowi i współpracownikom zmierzyć efekt przyczynowy i podać możliwe wyjaśnienie tego efektu.

Oczywiście można być sceptycznym wobec wyciągania wniosków na temat całego rynku pracy w USA w oparciu o decyzje kilkuset studentów, którzy prawdopodobnie nigdy nie pracowali w pełnym wymiarze godzin, nie mówiąc już o zatrudnieniu kogoś. Dlatego też Correll i współpracownicy przeprowadzili uzupełniający eksperyment terenowy. Odpowiedzieli oni na setki reklamowanych ofert pracy z fałszywymi listami motywacyjnymi i CV. Podobne do materiałów przedstawionych studentom, niektóre wznowienia sygnalizowały macierzyństwo, a inne nie. Correll i jego współpracownicy stwierdzili, że matki rzadziej są wzywani do wywiadów niż równie wykwalifikowane kobiety bezdzietne. Innymi słowy, prawdziwi pracodawcy podejmujący konsekwentne decyzje w otoczeniu naturalnym zachowali się podobnie jak studenci. Czy podjęli podobne decyzje z tego samego powodu? Niestety, nie wiemy. Badacze nie byli w stanie poprosić pracodawców o ocenę kandydatów lub wyjaśnienie ich decyzji.

Ta para eksperymentów ujawnia dużo o eksperymentach laboratoryjnych i polowych w ogóle. Eksperymenty laboratoryjne oferują naukowcom niemal całkowitą kontrolę nad otoczeniem, w którym uczestnicy podejmują decyzje. Tak więc, na przykład w eksperymencie laboratoryjnym, Correll i współpracownicy byli w stanie zapewnić, że wszystkie życiorysy zostały odczytane w cichym otoczeniu; w eksperymencie polowym niektóre życiorysy mogły nawet nie zostać odczytane. Ponadto, ponieważ uczestnicy w środowisku laboratoryjnym wiedzą, że są badani, naukowcy często są w stanie zebrać dodatkowe dane, które mogą pomóc wyjaśnić, dlaczego uczestnicy podejmują decyzje. Na przykład Correll i współpracownicy poprosili uczestników eksperymentu laboratoryjnego o ocenę kandydatów na różne wymiary. Tego rodzaju dane procesowe mogą pomóc badaczom zrozumieć mechanizmy stojące za różnicami w sposobie traktowania CV przez uczestników.

Z drugiej strony te dokładnie te same cechy, które właśnie opisałem jako zalety, są czasami uważane za wady. Naukowcy, którzy preferują eksperymenty terenowe twierdzą, że uczestnicy eksperymentów laboratoryjnych mogą działać zupełnie inaczej, ponieważ wiedzą, że są badani. Na przykład w eksperymencie laboratoryjnym uczestnicy mogli odgadnąć cel badania i zmienić jego zachowanie, aby nie wydawać się stronniczy. Co więcej, naukowcy, którzy preferują eksperymenty terenowe, mogą twierdzić, że niewielkie różnice w życiorysach mogą się wyróżniać tylko w bardzo czystym, sterylnym środowisku laboratoryjnym, a zatem eksperyment laboratoryjny zawyża wpływ macierzyństwa na rzeczywiste decyzje o zatrudnieniu. Wreszcie, wielu zwolenników eksperymentów terenowych krytykuje eksperymenty laboratoryjne oparte na uczestnikach WEIRD: głównie studenci z krajów zachodnich, wykształconych, uprzemysłowionych, bogatych i demokratycznych (Henrich, Heine, and Norenzayan 2010a) . Eksperymenty przeprowadzone przez Corrella i współpracowników (2007) ilustrują dwie skrajności w kontinuum pola laboratoryjnego. Pomiędzy tymi dwoma skrajnościami znajduje się również wiele hybrydowych projektów, w tym podejścia, takie jak sprowadzanie nie-studentów do laboratorium lub wchodzenie w teren, ale wciąż posiadanie przez uczestników nietypowego zadania.

Poza wymiarem pola laboratoryjnego, który istniał w przeszłości, epoka cyfrowa oznacza, że ​​badacze mają teraz drugi ważny wymiar, wzdłuż którego eksperymenty mogą się różnić: analogowo-cyfrowe. Tak jak istnieją czyste eksperymenty laboratoryjne, czyste eksperymenty terenowe i różne hybrydy pomiędzy nimi, istnieją czyste eksperymenty analogowe, czyste eksperymenty cyfrowe i różne hybrydy. Trudno jest podać formalną definicję tego wymiaru, ale użyteczną definicją roboczą jest to, że eksperymenty w pełni cyfrowe wykorzystują cyfrową infrastrukturę do rekrutacji uczestników, losowania, dostarczania terapii i mierzenia wyników. Na przykład badania Restnge i van de Rijta (2012) nad barnstars i Wikipedią były eksperymentem w pełni cyfrowym, ponieważ wykorzystywały systemy cyfrowe do wszystkich czterech etapów. Podobnie, w pełni analogowe eksperymenty nie korzystają z cyfrowej infrastruktury dla żadnego z tych czterech kroków. Wiele klasycznych eksperymentów z psychologii to całkowicie analogowe eksperymenty. Pomiędzy tymi dwoma skrajnościami istnieją częściowo cyfrowe eksperymenty, które wykorzystują kombinację systemów analogowych i cyfrowych.

Kiedy niektórzy myślą o cyfrowych eksperymentach, natychmiast myślą o eksperymentach online. To niefortunne, ponieważ możliwości prowadzenia cyfrowych eksperymentów nie są tylko online. Naukowcy mogą przeprowadzać częściowo cyfrowe eksperymenty za pomocą urządzeń cyfrowych w świecie fizycznym, aby zapewnić leczenie lub mierzyć wyniki. Na przykład naukowcy mogą wykorzystywać smartfony do dostarczania terapii lub czujników w środowisku zbudowanym w celu pomiaru wyników. W rzeczywistości, jak zobaczymy w dalszej części tego rozdziału, naukowcy wykorzystali już mierniki mocy domowej do mierzenia wyników w eksperymentach dotyczących zużycia energii obejmujących 8,5 miliona gospodarstw domowych (Allcott 2015) . Ponieważ urządzenia cyfrowe stają się coraz bardziej zintegrowane z życiem ludzi, a czujniki są zintegrowane ze środowiskiem zbudowanym, te możliwości prowadzenia częściowo cyfrowych eksperymentów w świecie fizycznym znacznie wzrosną. Innymi słowy, cyfrowe eksperymenty to nie tylko eksperymenty online.

Systemy cyfrowe stwarzają nowe możliwości eksperymentów w całym kontinuum pola laboratoryjnego. W eksperymentach czysto laboratoryjnych naukowcy mogą na przykład korzystać z systemów cyfrowych w celu dokładniejszego pomiaru zachowań uczestników; Jednym z przykładów tego typu ulepszonego pomiaru jest sprzęt do śledzenia oczu, który zapewnia precyzyjne i ciągłe pomiary położenia spojrzenia. Era cyfrowa stwarza również możliwość prowadzenia eksperymentów laboratoryjnych w Internecie. Na przykład naukowcy szybko przyjęli Amazon Mechanical Turk (MTurk), aby rekrutować uczestników do eksperymentów online (rysunek 4.2). MTurk dopasowuje "pracodawców", którzy mają zadania, które muszą być wypełnione "pracownikami", którzy chcą wykonać te zadania za pieniądze. Jednak w przeciwieństwie do tradycyjnych rynków pracy, realizacja zadań wymaga zwykle tylko kilku minut, a cała interakcja między pracodawcą a pracownikiem odbywa się online. Ponieważ MTurk naśladuje aspekty tradycyjnych eksperymentów laboratoryjnych - płacenia ludziom za wykonywanie zadań, których nie wykonaliby za darmo - jest to naturalnie dostosowane do pewnych typów eksperymentów. Zasadniczo MTurk stworzył infrastrukturę do zarządzania pulą uczestników - rekrutując i płacąc - a naukowcy wykorzystali tę infrastrukturę, aby wykorzystać dostępną pulę uczestników.

Rysunek 4.2: Dokumenty opublikowane przy użyciu danych z Amazon Mechanical Turk (MTurk). MTurk i inne rynki pracy online oferują naukowcom wygodny sposób rekrutowania uczestników do eksperymentów. Adaptacja z Bohannon (2016).

Rysunek 4.2: Dokumenty opublikowane przy użyciu danych z Amazon Mechanical Turk (MTurk). MTurk i inne rynki pracy online oferują naukowcom wygodny sposób rekrutowania uczestników do eksperymentów. Adaptacja z Bohannon (2016) .

Systemy cyfrowe stwarzają jeszcze więcej możliwości eksperymentów w terenie. W szczególności umożliwiają badaczom połączenie ścisłej kontroli i danych procesowych związanych z eksperymentami laboratoryjnymi z bardziej zróżnicowanymi uczestnikami i bardziej naturalnymi ustawieniami związanymi z eksperymentami laboratoryjnymi. Ponadto cyfrowe eksperymenty polowe oferują również trzy możliwości, które były trudne w analogowych eksperymentach.

Po pierwsze, podczas gdy większość eksperymentów laboratoryjnych i polowych ma setki uczestników, cyfrowe eksperymenty terenowe mogą mieć miliony uczestników. Ta zmiana skali wynika z faktu, że niektóre cyfrowe eksperymenty mogą generować dane przy zerowym koszcie zmiennym. Oznacza to, że gdy naukowcy stworzyli eksperymentalną infrastrukturę, zwiększenie liczby uczestników zazwyczaj nie zwiększa kosztów. Zwiększenie liczby uczestników o współczynnik 100 lub więcej to nie tylko zmiana ilościowa ; Jest to zmiana jakościowa , ponieważ umożliwia badaczom naukę różnych rzeczy z eksperymentów (np. heterogeniczność efektów leczenia) i prowadzenie całkowicie różnych projektów eksperymentalnych (np. eksperymentów z dużymi grupami). Ta kwestia jest tak ważna, że ​​powrócę do niej pod koniec rozdziału, kiedy udzielę rad dotyczących tworzenia cyfrowych eksperymentów.

Po drugie, podczas gdy większość analogowych eksperymentów laboratoryjnych i terenowych traktuje uczestników jako nierozróżnialne widżety, cyfrowe eksperymenty terenowe często wykorzystują podstawowe informacje o uczestnikach na etapie projektowania i analizy badań. Ta podstawowa informacja, która jest nazywana informacją o leczeniu wstępnym , jest często dostępna w eksperymentach cyfrowych, ponieważ są one prowadzone na stałych urządzeniach pomiarowych (patrz rozdział 2). Na przykład badaczka z Facebooka ma o wiele więcej informacji na temat leczenia wstępnego na temat osób w jej eksperymencie w polu cyfrowym niż badaczka uniwersytecka o ludziach z jej eksperymentu w terenie analogowym. Ta wstępna obróbka umożliwia bardziej efektywne projekty eksperymentalne - takie jak blokowanie (Higgins, Sävje, and Sekhon 2016) oraz ukierunkowana rekrutacja uczestników (Eckles, Kizilcec, and Bakshy 2016) - oraz bardziej wnikliwa analiza - na przykład ocena niejednorodności efektów leczenia (Athey and Imbens 2016a) i korekta współzmienna dla poprawy precyzji (Bloniarz et al. 2016) .

Po trzecie, podczas gdy wiele analogowych eksperymentów laboratoryjnych i terenowych dostarcza leczenia i mierzy wyniki w stosunkowo skompresowanym czasie, niektóre eksperymenty w terenie odbywają się w znacznie dłuższym czasie. Na przykład w eksperymencie Restivo i van de Rijta wynik był mierzony codziennie przez 90 dni, a jedno z eksperymentów, o których opowiem w dalszej części rozdziału (Ferraro, Miranda, and Price 2011) wyliczyło wyniki w ciągu trzech lat w zasadzie nie koszt. Te trzy wielkości wielkości, informacje dotyczące leczenia wstępnego oraz dane dotyczące leczenia podłużnego i danych dotyczących wyników - pojawiają się najczęściej, gdy eksperymenty są przeprowadzane w oparciu o stale stosowane systemy pomiarowe (patrz rozdział 2, aby uzyskać więcej informacji na temat zawsze działających systemów pomiarowych).

Podczas gdy cyfrowe eksperymenty terenowe oferują wiele możliwości, mają również pewne słabe punkty w eksperymentach z analogowymi laboratoriami i analogowymi polami. Na przykład eksperymenty nie mogą być wykorzystane do badania przeszłości i mogą jedynie oszacować efekty terapii, którymi można manipulować. Ponadto, mimo że eksperymenty są bez wątpienia przydatne w prowadzeniu polityki, dokładne wskazówki, które mogą zaoferować, są nieco ograniczone z powodu komplikacji, takich jak zależność od środowiska, problemy z przestrzeganiem przepisów i efekty równowagi (Banerjee and Duflo 2009; Deaton 2010) . Eksperymenty w polu cyfrowym powiększają również obawy natury etycznej wywołane eksperymentami polowymi - tematem, który omówię w dalszej części tego rozdziału oraz w rozdziale 6.