Notatki matematyczne

Myślę, że najlepszym sposobem zrozumienia eksperymentów jest potencjalne ramy wyników (które omówiłem w notatkach matematycznych w rozdziale 2). Ramy potencjalnych efektów są bliskie relacjom z pomysłami opartymi na projektowaniu, które opisałem w rozdziale 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Niniejszy załącznik został napisany w taki sposób, aby podkreślić to połączenie. Ten nacisk jest trochę nietradycyjny, ale uważam, że związek między próbkowaniem a eksperymentami jest pomocny: oznacza to, że jeśli wiesz coś o próbkowaniu, to wiesz coś o eksperymentach i na odwrót. Jak pokażę w tych notatkach, potencjalne ramy wyjściowe ujawniają siłę eksperymentów z kontrolą losową do oszacowania efektów przyczynowych i pokazują ograniczenia tego, co można zrobić przy nawet doskonale wykonanych eksperymentach.

W tym dodatku opiszę potencjalne ramy wyników, powielając część materiału z notatek matematycznych w rozdziale 2, aby uczynić te notatki bardziej samodzielnymi. Następnie opiszę kilka przydatnych wyników dotyczących dokładności oszacowań średnich efektów leczenia, w tym omówienie optymalnej alokacji i estymatorów różnic między zmiennymi. Dodatek ten w dużym stopniu opiera się na Gerber and Green (2012) .

Potencjalne ramy wyników

Aby zilustrować potencjalne ramy wyników, wróćmy do eksperymentu Restivo i van de Rijta, aby oszacować wpływ otrzymania barnstar na przyszłe wkłady do Wikipedii. Ramy potencjalnych efektów obejmują trzy główne elementy: jednostki , leczenie i potencjalne wyniki . W przypadku Restivo i van de Rijta, jednostki zasługiwały na redaktorów - tych z top 1% autorów - którzy jeszcze nie otrzymali stodoły. Możemy indeksować te edytory według \(i = 1 \ldots N\) . Zabiegi w ich eksperymencie były "barnstar" lub "no barnstar", a ja napiszę \(W_i = 1\) jeśli osoba \(i\) jest w stanie leczenia i \(W_i = 0\) przeciwnym razie. Trzeci element ram potencjalnych efektów jest najważniejszy: potencjalne wyniki . Są one nieco bardziej koncepcyjnie trudne, ponieważ wiążą się z "potencjalnymi" wynikami - rzeczami, które mogą się zdarzyć. Dla każdego edytora Wikipedii można sobie wyobrazić liczbę zmian, które wprowadziłaby w warunku leczenia ( \(Y_i(1)\) ) oraz liczbę, jaką wykonałaby w \(Y_i(0)\) kontrolnej ( \(Y_i(0)\) ).

Zwróć uwagę, że ten wybór jednostek, metod leczenia i wyników określa, czego można się nauczyć z tego eksperymentu. Na przykład, bez żadnych dodatkowych założeń, Restivo i van de Rijt nie mogą nic powiedzieć o efektach barnstars na wszystkich edytorach Wikipedii ani o wynikach, takich jak jakość edycji. Ogólnie rzecz biorąc, wybór jednostek, leczenie i wyniki muszą być oparte na celach badania.

Biorąc pod uwagę te potencjalne wyniki - podsumowane w tabeli 4.5 - można zdefiniować przyczynową skuteczność leczenia dla osoby \(i\) jako

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Dla mnie to równanie jest najjaśniejszym sposobem zdefiniowania efektu przyczynowego, i choć jest bardzo proste, to ten framework okazuje się generalizować na wiele ważnych i interesujących sposobów (Imbens and Rubin 2015) .

Tabela 4.5: Tabela potencjalnych wyników
Osoba Edycje w stanie leczenia Edycje w stanie kontrolnym Efekt leczenia
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
oznaczać \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Jeśli jednak w ten sposób określimy przyczynowość, natrafimy na problem. Niemal we wszystkich przypadkach nie obserwujemy obu potencjalnych wyników. Oznacza to, że konkretny edytor Wikipedii otrzymał gwiazdę barn albo nie. Dlatego obserwujemy jedno z potencjalnych rezultatów - \(Y_i(1)\) lub \(Y_i(0)\) - ale nie oba. Niemożność zaobserwowania obu potencjalnych wyników jest tak poważnym problemem, że Holland (1986) nazwał to Podstawowym Problemem Wnioskowania Przyczynowego .

Na szczęście, kiedy przeprowadzamy badania, nie mamy tylko jednej osoby, mamy wielu ludzi, a to oferuje sposób na Podstawowy Problem Wnioskowania Przyczynowego. Zamiast próbować oszacować efekt leczenia na poziomie indywidualnym, możemy oszacować średni efekt leczenia:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Jest to nadal wyrażone w kategoriach \(\tau_i\) które są nieobserwowalne, ale z pewną algebrą (Eq 2.8 Gerber and Green (2012) ) otrzymujemy

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Równanie 4.3 pokazuje, że jeśli potrafimy oszacować średni wynik populacji w trakcie leczenia ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) i wynik średniej populacji pod kontrolą ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), wtedy możemy oszacować średni efekt leczenia, nawet bez oszacowania efektu leczenia dla konkretnej osoby.

Teraz, gdy zdefiniowałem nasz szacunek i to, co próbujemy oszacować, zwrócę się do tego, jak możemy to oszacować za pomocą danych. Lubię myśleć o tym wyzwaniu szacowania jako problem z próbkowaniem (przypomnij sobie uwagi matematyczne w rozdziale 3). Wyobraź sobie, że losowo wybieramy niektórych ludzi do obserwacji w warunkach leczenia i losowo wybieramy niektórych ludzi do obserwacji w warunkach kontrolnych, wtedy możemy oszacować średni wynik w każdym stanie:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

gdzie \(N_t\) i \(N_c\) to liczba osób w warunkach leczenia i kontroli. Równanie 4.4 jest estymatorem różnicy średnich. Ze względu na projekt próbkowania wiemy, że pierwszy termin jest nieobciążonym estymatorem dla średniego wyniku leczenia, a drugi termin jest bezstronnym estymatorem pod kontrolą.

Innym sposobem na zastanowienie się nad tym, na czym polega randomizacja, jest zapewnienie, że porównanie pomiędzy grupami leczenia i grup kontrolnych jest sprawiedliwe, ponieważ randomizacja zapewnia, że ​​obie grupy będą się do siebie podobać. To podobieństwo odnosi się do rzeczy, które zmierzyliśmy (powiedzmy, ile zmian dokonano na 30 dni przed eksperymentem) i rzeczy, których nie mierzyliśmy (np. Płeć). Zdolność do zapewnienia równowagi zarówno dla czynników obserwowanych, jak i nieobserwowanych jest krytyczna. Aby zobaczyć siłę automatycznego równoważenia na nieobserwowanych czynnikach, wyobraźmy sobie, że przyszłe badania wskazują, że mężczyźni lepiej reagują na nagrody niż kobiety. Czy to unieważniłoby wyniki eksperymentu Restivo i van de Rijta? Nie. Losowo, upewnili się, że wszystkie nieobserwowalne będą zrównoważone, w oczekiwaniu. Ta ochrona przed nieznanym jest bardzo potężna i jest to ważny sposób, w jaki eksperymenty różnią się od technik nieeksperymentalnych opisanych w rozdziale 2.

Oprócz zdefiniowania efektu leczenia dla całej populacji, możliwe jest zdefiniowanie efektu leczenia dla podgrupy ludzi. Nazywa się to zwykle warunkowym średnim efektem leczenia (CATE). Na przykład, w badaniu przeprowadzonym przez Restivo i van de Rijta, wyobraźmy sobie, że \(X_i\) oznacza, czy redaktor znajdował się powyżej lub poniżej średniej liczby zmian w ciągu 90 dni przed eksperymentem. Można obliczyć efekt leczenia osobno dla tych lekkich i ciężkich edytorów.

Ramy potencjalnych efektów to potężny sposób myślenia o wnioskach przyczynowych i eksperymentach. Istnieją jednak dwie dodatkowe komplikacje, o których należy pamiętać. Te dwie komplikacje są często zestawiane razem w ramach pojęcia " Stała wartość leczenia jednostkowego" (SUTVA). Pierwszą częścią SUTVA jest założenie, że jedyną rzeczą, która ma znaczenie dla wyniku osoby \(i\) jest to, czy ta osoba była w stanie leczenia lub kontroli. Innymi słowy, zakłada się, że osoba \(i\) nie jest pod wpływem leczenia udzielanego innym osobom. Jest to czasami nazywane "brak interferencji" lub "brak efektów ubocznych" i można je zapisać jako:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

gdzie \(\mathbf{W_{-i}}\) jest wektorem stanów leczenia dla wszystkich oprócz osoby \(i\) . Jednym ze sposobów, w jaki można to naruszyć, jest to, czy leczenie jednej osoby rozlewa się na inną osobę, pozytywnie lub negatywnie. Wracając do eksperymentu Restivo i van de Rijta, wyobraź sobie dwóch przyjaciół \(i\) i \(j\) a ta osoba \(i\) otrzymuje gwiazdę, a \(j\) nie. Jeśli \(i\) odbierając barnstar powoduje \(j\) aby edytować więcej (z poczucia konkurencji) lub edytować mniej (z poczucia rozpaczy), to SUTVA zostało naruszone. Może również zostać naruszone, jeśli wpływ leczenia zależy od całkowitej liczby innych osób otrzymujących leczenie. Na przykład, jeśli Restivo i van de Rijt wydali 1000 lub 10 000 znaków stacyjnych zamiast 100, mogło to wpłynąć na efekt otrzymania gwiazdy.

Drugą kwestią, która została sklasyfikowana jako SUTVA, jest założenie, że jedyną istotną metodą leczenia jest ta, którą dostarcza naukowiec; to założenie jest czasami nazywane bez ukrytych zabiegów lub wykluczenia . Na przykład w firmach Restivo i van de Rijt mogło być tak, że dzięki nadaniu barnstar naukowcy spowodowali, że redaktorzy pojawili się na popularnej stronie redaktorów i że znajdowali się na popularnej stronie redaktorów - zamiast otrzymywać barnstar- które spowodowało zmianę w sposobie edycji. Jeśli jest to prawdą, to efekt barnstar nie odróżnia się od efektu bycia na popularnej stronie edytora. Oczywiście nie jest jasne, czy z naukowego punktu widzenia powinno się to uznać za atrakcyjne lub nieatrakcyjne. Oznacza to, że można sobie wyobrazić badacza mówiącego, że efekt otrzymania gwiazdy barn obejmuje wszystkie kolejne zabiegi, które wywołuje barnstar. Albo możesz sobie wyobrazić sytuację, w której badanie chciałoby wyizolować efekt barnstars z tych wszystkich innych rzeczy. Jednym ze sposobów myślenia jest pytanie, czy istnieje coś, co prowadzi do tego, co Gerber and Green (2012) (str. 41) nazywają "załamaniem symetrii"? Innymi słowy, czy istnieje coś innego niż leczenie, które powoduje, że ludzie w warunkach leczenia i kontroli są traktowani inaczej? Obawy dotyczące łamania symetrii są tym, co prowadzi pacjentów w grupie kontrolnej w badaniach medycznych do przyjęcia pigułki placebo. W ten sposób naukowcy mogą być pewni, że jedyną różnicą między tymi dwoma warunkami jest faktyczny lek, a nie doświadczenie przyjmowania pigułki.

Więcej informacji na temat SUTVA można znaleźć w sekcji 2.7 Gerber and Green (2012) , sekcji 2.5 Morgan and Winship (2014) oraz sekcji 1.6 Imbens and Rubin (2015) .

Precyzja

W poprzedniej sekcji opisałem, jak oszacować średni efekt leczenia. W tej sekcji przedstawię kilka pomysłów na temat zmienności tych szacunków.

Jeśli myślisz o oszacowaniu średniego efektu leczenia jako szacunkowej różnicy między dwoma próbnymi środkami, to można pokazać, że standardowy błąd średniego efektu leczenia wynosi:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

gdzie \(m\) ludzie przydzieleni do leczenia i \(Nm\) do kontrolowania (patrz Gerber and Green (2012) , eq. 3.4). Tak więc, gdy myślimy o tym, ile osób przypisać do leczenia i ile przypisać do kontroli, można zobaczyć, że jeśli \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , następnie chcesz \(m \approx N / 2\) , o ile koszty leczenia i kontroli są takie same. Równanie 4.6 wyjaśnia, dlaczego projekt eksperymentu Bonda i współpracowników (2012) temat wpływu informacji społecznej na głosowanie (rysunek 4.18) był nieefektywny statystycznie. Przypomnijmy, że miało 98% uczestników stanu leczenia. Oznaczało to, że średnie zachowanie w warunkach kontrolnych nie zostało oszacowane tak dokładnie, jak mogło być, co z kolei oznaczało, że oszacowana różnica między stanem leczenia i kontroli nie została oszacowana tak dokładnie, jak to tylko możliwe. Więcej informacji na temat optymalnej alokacji uczestników do warunków, w tym gdy koszty różnią się między warunkami, patrz: List, Sadoff, and Wagner (2011) .

Na koniec w tekście głównym opisałem, w jaki sposób estymator różnicy w różnicach, który jest zwykle stosowany w mieszanym projekcie, może prowadzić do mniejszej wariancji niż estymator różnicy w średnim, który jest zwykle stosowany w projekt. Jeśli \(X_i\) jest wartością wyniku przed leczeniem, to ilość, którą próbujemy oszacować za pomocą podejścia różnicowego na różnice jest:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Standardowy błąd tej ilości to (patrz Gerber and Green (2012) , eq. 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Porównanie równ. 4.6 i równ. 4.8 pokazuje, że podejście różnicujące różnice będzie miało mniejszy błąd standardowy, gdy (patrz Gerber and Green (2012) , równ. 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Z grubsza, kiedy \(X_i\) jest bardzo predykcyjne dla \(Y_i(1)\) i \(Y_i(0)\) , wtedy możesz uzyskać bardziej precyzyjne szacunki z podejścia różnic różnicy niż z \(Y_i(0)\) of-means one. Jednym ze sposobów na przemyślenie tego w kontekście eksperymentu Restivo i van de Rijta jest to, że istnieje wiele naturalnych zmian w ilości, którą ludzie edytują, co utrudnia porównywanie warunków leczenia i kontroli: trudno jest wykryć krewnego mały efekt w hałaśliwych danych wynikowych. Ale jeśli odróżnisz tę naturalnie występującą zmienność, wtedy jest znacznie mniej zmienności, a to ułatwia wykrycie niewielkiego efektu.

Zobacz Frison and Pocock (1992) aby uzyskać dokładne porównanie różnic między średnimi, różnicami różnic i podejściami opartymi na ANCOVA w bardziej ogólnym ujęciu, gdzie istnieje wiele pomiarów przed i po traktowaniu. W szczególności zdecydowanie zalecają ANCOVA, której tutaj nie omawiałem. Co więcej, patrz McKenzie (2012) aby omówić znaczenie wielokrotnych wyników leczenia po leczeniu.