Notas Matemáticas

Acho que a melhor maneira de entender os experimentos é a estrutura de resultados potenciais (que discuti nas anotações matemáticas no capítulo 2). A estrutura de resultados potenciais tem uma relação próxima com as ideias da amostragem baseada em design que descrevi no capítulo 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Este apêndice foi escrito de forma a enfatizar essa conexão. Essa ênfase é um pouco não-tradicional, mas acho que a conexão entre amostragem e experimentos é útil: significa que, se você souber algo sobre amostragem, saberá algo sobre experimentos e vice-versa. Como mostrarei nestas notas, a estrutura de resultados potenciais revela a força de experimentos controlados randomizados para estimar os efeitos causais, e mostra as limitações do que pode ser feito mesmo com experimentos perfeitamente executados.

Neste apêndice, descreverei o quadro de resultados em potencial, duplicando parte do material das notas matemáticas do capítulo 2 para tornar essas anotações mais autônomas. Em seguida, descreverei alguns resultados úteis sobre a precisão das estimativas dos efeitos médios do tratamento, incluindo uma discussão dos alocadores de alocação ótima e diferença-em-diferenças. Este apêndice baseia-se fortemente em Gerber and Green (2012) .

Quadro de resultados potenciais

A fim de ilustrar o quadro de resultados em potencial, vamos voltar ao experimento de Restivo e van de Rijt para estimar o efeito de receber um barnstar em futuras contribuições para a Wikipedia. O quadro de resultados potenciais tem três elementos principais: unidades , tratamentos e resultados potenciais . No caso de Restivo e van de Rijt, as unidades eram merecedoras de editores - aqueles no top 1% dos contribuintes - que ainda não haviam recebido uma barnstar. Podemos indexar esses editores por \(i = 1 \ldots N\) . Os tratamentos em sua experiência foram "barnstar" ou "no barnstar", e eu escreverei \(W_i = 1\) se a pessoa \(i\) estiver na condição de tratamento e \(W_i = 0\) caso contrário. O terceiro elemento do quadro de resultados potenciais é o mais importante: os resultados potenciais . Estes são um pouco mais conceitualmente difíceis porque envolvem resultados “potenciais” - coisas que podem acontecer. Para cada editor da Wikipedia, pode-se imaginar o número de edições que ela faria na condição de tratamento ( \(Y_i(1)\) ) e o número que ela faria na condição de controle ( \(Y_i(0)\) ).

Observe que essa escolha de unidades, tratamentos e resultados define o que pode ser aprendido com esse experimento. Por exemplo, sem nenhuma suposição adicional, Restivo e van de Rijt não podem dizer nada sobre os efeitos dos barnstars em todos os editores da Wikipédia ou sobre resultados como qualidade de edição. Em geral, a escolha de unidades, tratamentos e resultados deve ser baseada nos objetivos do estudo.

Dados estes resultados potenciais - que estão resumidos na tabela 4.5 - pode-se definir o efeito causal do tratamento para a pessoa \(i\) como

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Para mim, essa equação é a maneira mais clara de definir um efeito causal e, embora extremamente simples, essa estrutura acaba por ser generalizada de muitas formas importantes e interessantes (Imbens and Rubin 2015) .

Tabela 4.5: Tabela de Resultados Potenciais
Pessoa Edita em condição de tratamento Edições na condição de controle Efeito do tratamento
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
significar \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Se definirmos causalidade dessa maneira, no entanto, nos deparamos com um problema. Em quase todos os casos, não conseguimos observar ambos os resultados possíveis. Ou seja, um editor específico da Wikipédia recebeu um barnstar ou não. Portanto, observamos um dos resultados potenciais - \(Y_i(1)\) ou \(Y_i(0)\) - mas não ambos. A incapacidade de observar ambos os resultados potenciais é um problema tão importante que Holland (1986) chamou de problema fundamental da inferência causal .

Felizmente, quando estamos fazendo pesquisas, não temos apenas uma pessoa, temos muitas pessoas, e isso oferece uma maneira de contornar o problema fundamental da inferência causal. Em vez de tentar estimar o efeito do tratamento em nível individual, podemos estimar o efeito médio do tratamento:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Isso ainda é expresso em termos de \(\tau_i\) que são inobserváveis, mas com alguma álgebra (Eq 2.8 de Gerber and Green (2012) ) obtemos

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

A equação 4.3 mostra que se podemos estimar o resultado médio da população em tratamento ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) e o resultado médio da população sob controle ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), então podemos estimar o efeito médio do tratamento, mesmo sem estimar o efeito do tratamento para qualquer pessoa em particular.

Agora que defini nossa estimativa - a coisa que estamos tentando estimar - veremos como podemos realmente estimar isso com dados. Eu gosto de pensar sobre este desafio de estimativa como um problema de amostragem (pense nas anotações matemáticas no capítulo 3). Imagine que escolhemos aleatoriamente algumas pessoas para observar na condição de tratamento e escolhemos aleatoriamente algumas pessoas para observar na condição de controle, então podemos estimar o resultado médio em cada condição:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

onde \(N_t\) e \(N_c\) são o número de pessoas nas condições de tratamento e controle. A equação 4.4 é um estimador de diferença de médias. Por causa do desenho amostral, sabemos que o primeiro termo é um estimador não-viesado para o desfecho médio em tratamento e o segundo termo é um estimador não-viesado sob controle.

Outra maneira de pensar sobre o que a randomização permite é que ela garante que a comparação entre os grupos de tratamento e controle seja justa, porque a aleatorização garante que os dois grupos se assemelhem. Essa semelhança vale para as coisas que medimos (digamos, o número de edições nos 30 dias anteriores ao experimento) e as coisas que não medimos (digamos, sexo). Essa capacidade de garantir o equilíbrio em fatores observados e não observados é crítica. Para ver o poder do balanceamento automático em fatores não observados, vamos imaginar que pesquisas futuras concluam que os homens são mais receptivos aos prêmios do que as mulheres. Isso invalidaria os resultados da experiência de Restivo e van de Rijt? Não. Ao randomizar, eles asseguraram que todos os inobserváveis ​​seriam equilibrados, na expectativa. Essa proteção contra o desconhecido é muito poderosa, e é uma maneira importante que os experimentos são diferentes das técnicas não experimentais descritas no capítulo 2.

Além de definir o efeito do tratamento para uma população inteira, é possível definir um efeito de tratamento para um subconjunto de pessoas. Isso é normalmente chamado de efeito de tratamento médio condicional (CATE). Por exemplo, no estudo de Restivo e van de Rijt, vamos imaginar que \(X_i\) é se o editor estava acima ou abaixo do número mediano de edições durante os 90 dias anteriores ao experimento. Pode-se calcular o efeito do tratamento separadamente para esses editores leves e pesados.

O quadro de resultados potenciais é uma maneira poderosa de pensar sobre inferência causal e experimentos. No entanto, existem duas complexidades adicionais que você deve ter em mente. Essas duas complexidades são freqüentemente agrupadas sob o termo Estabilidade do Valor do Tratamento da Unidade Estável (SUTVA). A primeira parte do SUTVA é a suposição de que a única coisa que importa para a pessoa \(i\) resultado 's é se essa pessoa estava na condição de tratamento ou controle. Em outras palavras, supõe-se que a pessoa \(i\) não seja impactada pelo tratamento dado a outras pessoas. Isso às vezes é chamado de "sem interferência" ou "sem transbordamento" e pode ser escrito como:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

onde \(\mathbf{W_{-i}}\) é um vetor de status de tratamento para todos, exceto person \(i\) . Uma maneira de violar isso é se o tratamento de uma pessoa transbordar para outra pessoa, positiva ou negativamente. Retornando à experiência de Restivo e van de Rijt, imagine dois amigos \(i\) e \(j\) e essa pessoa \(i\) recebe um barnstar e \(j\) não. Se \(i\) receber o barnstar fizer com que \(j\) edite mais (fora de um sentido de competição) ou edite menos (por desespero), então o SUTVA foi violado. Também pode ser violado se o impacto do tratamento depender do número total de outras pessoas que recebem o tratamento. Por exemplo, se Restivo e van de Rijt tivessem distribuído 1.000 ou 10.000 barnstars em vez de 100, isso poderia ter afetado o efeito de receber um barnstar.

A segunda questão colocada no SUTVA é a suposição de que o único tratamento relevante é aquele que o pesquisador oferece; Esta suposição é às vezes chamada de tratamentos ocultos ou excludibilidade . Por exemplo, em Restivo e van de Rijt, pode ter sido o caso que, ao dar um barnstar, os pesquisadores fizeram com que os editores aparecessem em uma página de editores popular e que estivesse na popular página de editores - em vez de receber um barnstar - que causou a mudança no comportamento de edição. Se isso for verdade, então o efeito do barnstar não se distingue do efeito de estar na página de editores populares. Naturalmente, não está claro se, do ponto de vista científico, isso deve ser considerado atraente ou pouco atraente. Isto é, você poderia imaginar um pesquisador dizendo que o efeito de receber um barnstar inclui todos os tratamentos subsequentes que o barnstar desencadeia. Ou você poderia imaginar uma situação em que uma pesquisa iria querer isolar o efeito de barnstars de todas essas outras coisas. Uma maneira de pensar sobre isso é perguntar se há algo que leve ao que Gerber and Green (2012) (p. 41) chamam de “quebra de simetria”? Em outras palavras, existe algo além do tratamento que faz com que as pessoas nas condições de tratamento e controle sejam tratadas de maneira diferente? Preocupações sobre a quebra de simetria são o que levam os pacientes do grupo de controle em estudos médicos a tomar uma pílula placebo. Dessa forma, os pesquisadores podem ter certeza de que a única diferença entre as duas condições é a medicação real e não a experiência de tomar a pílula.

Para mais informações sobre a SUTVA, consulte a seção 2.7 de Gerber and Green (2012) , seção 2.5 de Morgan and Winship (2014) e a seção 1.6 de Imbens and Rubin (2015) .

Precisão

Na seção anterior, descrevi como estimar o efeito médio do tratamento. Nesta seção, fornecerei algumas idéias sobre a variabilidade dessas estimativas.

Se você pensar em estimar o efeito médio do tratamento ao estimar a diferença entre duas médias amostrais, então é possível mostrar que o erro padrão do efeito médio do tratamento é:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

onde \(m\) pessoas designadas para tratamento e \(Nm\) para controle (ver Gerber and Green (2012) , eq. 3.4). Assim, ao pensar sobre quantas pessoas atribuir ao tratamento e quantas para atribuir ao controle, você pode ver que se \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , então você quer \(m \approx N / 2\) , desde que os custos de tratamento e controle sejam os mesmos. A Equação 4.6 esclarece por que o desenho do experimento de Bond e colegas (2012) sobre os efeitos da informação social no voto (figura 4.18) era ineficiente estatisticamente. Lembre-se que tinha 98% dos participantes na condição de tratamento. Isso significava que o comportamento médio na condição de controle não era estimado com a precisão que poderia ter sido, o que, por sua vez, significava que a diferença estimada entre o tratamento e a condição de controle não era estimada com a precisão que poderia ser. Para obter mais informações sobre a alocação ideal dos participantes às condições, incluindo quando os custos diferem entre as condições, consulte List, Sadoff, and Wagner (2011) .

Finalmente, no texto principal, descrevi como um estimador de diferenças-em-diferenças, que é tipicamente usado em um projeto misto, pode levar a uma variância menor do que um estimador de diferença-em-média, que é tipicamente usado em um entre-sujeitos. desenhar. Se \(X_i\) é o valor do resultado antes do tratamento, então a quantidade que estamos tentando estimar com a abordagem diferença-em-diferenças é:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

O erro padrão dessa quantidade é (ver Gerber and Green (2012) , eq. 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Uma comparação de eq. 4,6 e eq. 4.8 revela que a abordagem diferença-em-diferenças terá um erro padrão menor quando (ver Gerber and Green (2012) , eq. 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Aproximadamente, quando \(X_i\) é muito preditivo de \(Y_i(1)\) e \(Y_i(0)\) , então você pode obter estimativas mais precisas a partir de uma abordagem de diferença de diferenças do que de uma diferença. of-means one. Uma maneira de pensar sobre isso no contexto da experiência de Restivo e van de Rijt é que há muita variação natural na quantidade que as pessoas editam, então isso dificulta a comparação das condições de tratamento e controle: é difícil detectar um parente pequeno efeito em dados de resultados ruidosos. Mas se você diferenciar essa variabilidade que ocorre naturalmente, então há muito menos variabilidade, e isso facilita a detecção de um pequeno efeito.

Veja Frison and Pocock (1992) para uma comparação precisa de diferenças de médias, diferença de diferenças e abordagens baseadas em ANCOVA no cenário mais geral, onde existem várias medições pré-tratamento e pós-tratamento. Em particular, eles recomendam fortemente a ANCOVA, que eu não abordei aqui. Além disso, ver McKenzie (2012) para uma discussão sobre a importância de múltiplas medidas de resultados pós-tratamento.