atividades

Esta tradução foi criado por um computador. ×

atividades

grau de dificuldade: fácil médio , Difícil , muito difícil
requer matemática ( $requer matemática$ )
requer codificação ( )
coleção de dados ( )
meus favoritos ( )

[ , Berinsky e colegas (2012) avaliaram MTurk, em parte, replicando três experimentos clássicos. Replicar o clássico experimento de enquadramento da doença asiática por Tversky and Kahneman (1981) . Seus resultados correspondem aos de Tversky e Kahneman? Os seus resultados correspondem aos de Berinsky e colegas? O que - se alguma coisa - isso nos ensina sobre o uso do MTurk para experimentos de pesquisa?
[ , Num artigo um tanto irônico, intitulado “Nós temos que romper”, o psicólogo social Robert Cialdini, um dos autores de Schultz et al. (2007) , escreveu que ele estava se aposentando cedo de seu trabalho como professor, em parte por causa dos desafios que enfrentou fazendo experimentos de campo em uma disciplina (psicologia) que conduz principalmente experimentos de laboratório (Cialdini 2009) . Leia o artigo de Cialdini e escreva-lhe um e-mail pedindo-lhe que reconsidere sua separação à luz das possibilidades dos experimentos digitais. Use exemplos específicos de pesquisas que abordem suas preocupações.
[ ] Para determinar se pequenos sucessos iniciais se fecham ou desaparecem, van de Rijt e colegas (2014) interveio em quatro sistemas diferentes, dando sucesso em participantes selecionados aleatoriamente, e então mediu os impactos a longo prazo desse sucesso arbitrário. Você consegue pensar em outros sistemas nos quais você poderia realizar experiências semelhantes? Avalie esses sistemas em termos de questões de valor científico, confundimento algorítmico (ver capítulo 2) e ética.
[ , ] Os resultados de um experimento podem depender dos participantes. Crie uma experiência e, em seguida, execute-a no MTurk usando duas estratégias de recrutamento diferentes. Tente escolher a experiência e as estratégias de recrutamento para que os resultados sejam os mais diferentes possíveis. Por exemplo, suas estratégias de recrutamento poderiam ser recrutar participantes de manhã e à noite ou compensar os participantes com salários altos e baixos. Esses tipos de diferenças na estratégia de recrutamento podem levar a diferentes grupos de participantes e diferentes resultados experimentais. Quão diferentes foram os resultados? O que isso revela sobre a execução de experimentos no MTurk?
[ , $requer matemática$ , Imagine que você estivesse planejando o experimento do Contágio Emocional (Kramer, Guillory, and Hancock 2014) . Use os resultados de um estudo observacional anterior de Kramer (2012) para decidir o número de participantes em cada condição. Esses dois estudos não combinam perfeitamente, portanto, certifique-se de listar explicitamente todas as suposições feitas:
1. Execute uma simulação que decidirá quantos participantes seriam necessários para detectar um efeito tão grande quanto o efeito em Kramer (2012) com $\alpha = 0.05$ e $1 - \beta = 0.8$ .
2. Faça o mesmo cálculo analiticamente.
3. Considerando os resultados de Kramer (2012) Contágio Emocional (Kramer, Guillory, and Hancock 2014) superpotenciado (ou seja, ele teve mais participantes do que o necessário)?
4. Das suposições que você fez, quais têm o maior efeito em seu cálculo?
[ , $requer matemática$ , ] Responda à pergunta anterior novamente, mas desta vez, em vez de usar o estudo observacional anterior de Kramer (2012) , use os resultados de um experimento natural anterior de Lorenzo Coviello et al. (2014) .
[ Ambos Margetts et al. (2011) e van de Rijt et al. (2014) realizaram experimentos estudando o processo de pessoas assinarem uma petição. Compare e contraste os desenhos e resultados desses estudos.
[ Dwyer, Maki, and Rothman (2015) realizaram dois experimentos de campo sobre a relação entre normas sociais e comportamento pró-ambiental. Aqui está o resumo do artigo deles:

“Como a ciência psicológica pode ser utilizada para incentivar o comportamento pró-ambiental? Em dois estudos, as intervenções destinadas a promover o comportamento de conservação de energia em banheiros públicos examinaram as influências das normas descritivas e da responsabilidade pessoal. No Estudo 1, o status da luz (ou seja, ligado ou desligado) foi manipulado antes que alguém entrasse em um banheiro público desocupado, sinalizando a norma descritiva para esse cenário. Os participantes foram significativamente mais propensos a desligar as luzes se eles estavam fora quando eles entraram. No Estudo 2, foi incluída uma condição adicional na qual a norma de desligar a luz era demonstrada por um confederado, mas os participantes não eram responsáveis por ativá-lo. A responsabilidade pessoal moderou a influência das normas sociais no comportamento; quando os participantes não eram responsáveis por acender a luz, a influência da norma era diminuída. Esses resultados indicam como as normas descritivas e a responsabilidade pessoal podem regular a eficácia das intervenções pro-ambientais ”.

Leia o artigo e projete uma replicação do estudo 1.
[ , ] Com base na pergunta anterior, agora execute seu projeto.
1. Como os resultados são comparados?
2. O que pode explicar essas diferenças?
[ Houve um debate substancial sobre experimentos usando participantes recrutados do MTurk. Paralelamente, houve também um debate substancial sobre experimentos usando participantes recrutados de populações de estudantes de graduação. Escreva um memorando de duas páginas comparando e contrastando turkers e universitários como participantes da pesquisa. Sua comparação deve incluir uma discussão de questões científicas e logísticas.
[ O livro de Jim Manzi, Uncontrolled (2012) é uma introdução maravilhosa ao poder da experimentação nos negócios. No livro ele retransmitiu a seguinte história:

“Certa vez, eu estava em uma reunião com um verdadeiro gênio dos negócios, um bilionário autodidata que tinha um profundo e intuitivo entendimento do poder dos experimentos. Sua empresa gastava recursos significativos tentando criar grandes vitrines que atraíssem consumidores e aumentassem as vendas, como a sabedoria convencional dizia que deveriam. Os especialistas testaram cuidadosamente o projeto após o projeto e, em sessões individuais de revisão de testes, durante um período de anos, não mostraram nenhum efeito causal significativo de cada novo design de exibição nas vendas. Executivos sênior de marketing e merchandising reuniram-se com o CEO para revisar os resultados dos testes históricos. Depois de apresentar todos os dados experimentais, eles concluíram que a sabedoria convencional estava errada - que as vitrines não geram vendas. Sua ação recomendada foi reduzir custos e esforços nessa área. Isso demonstrou dramaticamente a capacidade da experimentação de derrubar a sabedoria convencional. A resposta do CEO foi simples: "Minha conclusão é que seus designers não são muito bons". Sua solução foi aumentar o esforço no design de expositores de lojas e fazer com que novas pessoas o fizessem. ” (Manzi 2012, 158–9)

Qual tipo de validade é a preocupação do CEO?
[ ] Com base na pergunta anterior, imagine que você estava na reunião em que os resultados dos experimentos foram discutidos. Quais são as quatro perguntas que você poderia fazer - uma para cada tipo de validade (estatística, construção, interna e externa)?
[ Bernedo, Ferraro, and Price (2014) estudaram o efeito de sete anos da intervenção de economia de água descrita em Ferraro, Miranda, and Price (2011) (ver figura 4.11). Neste artigo, Bernedo e seus colegas também procuraram entender o mecanismo por trás do efeito comparando o comportamento de famílias que mudaram ou não após o término do tratamento. Isso é, grosso modo, eles tentaram ver se o tratamento impactou a casa ou o proprietário.
1. Leia o artigo, descreva seu design e resuma suas descobertas.
2. Suas descobertas afetam como você deve avaliar o custo-efetividade de intervenções semelhantes? Se sim, porque? Se não, por que não?
[ ] Em uma continuação de Schultz et al. (2007) , Schultz e colegas realizaram uma série de três experimentos sobre o efeito de normas descritivas e injuntivas em um comportamento ambiental diferente (reutilização de toalhas) em dois contextos (um hotel e um condomínio de timeshare) (Schultz, Khazian, and Zaleski 2008) .
1. Resuma o design e os resultados desses três experimentos.
2. Como, se de fato, eles mudam sua interpretação de Schultz et al. (2007) ?
[ ] Em resposta a Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) realizaram uma série de experimentos em laboratório para estudar o projeto de contas de energia elétrica. Veja como eles descrevem o resumo:

“Em um experimento baseado em pesquisa, cada participante viu uma hipotética conta de eletricidade para uma família com uso de eletricidade relativamente alto, cobrindo informações sobre (a) uso histórico, (b) comparações com vizinhos e (c) uso histórico com quebra de eletrodomésticos. Os participantes viram todos os tipos de informações em um dos três formatos, incluindo (a) tabelas, (b) gráficos de barras e (c) gráficos de ícones. Nós relatamos três principais descobertas. Primeiro, os consumidores entenderam cada tipo de informação de uso de eletricidade mais quando foi apresentada em uma tabela, talvez porque as tabelas facilitam a leitura simples de pontos. Em segundo lugar, as preferências e intenções de economizar eletricidade foram as mais fortes para a informação de uso histórico, independente do formato. Em terceiro lugar, os indivíduos com baixa literacia energética compreendiam menos todas as informações. ”

Ao contrário de outros estudos de acompanhamento, o principal resultado de interesse em Canfield, Bruin, and Wong-Parodi (2016) é o comportamento relatado, não o comportamento real. Quais são os pontos fortes e fracos deste tipo de estudo em um programa de pesquisa mais amplo que promove a economia de energia?
[ , Smith and Pell (2003) apresentaram uma metanálise satírica de estudos que demonstram a eficácia dos pára-quedas. Eles concluíram:

“Tal como acontece com muitas intervenções destinadas a prevenir problemas de saúde, a eficácia dos pára-quedas não foi submetida a avaliações rigorosas utilizando ensaios controlados aleatorizados. Defensores da medicina baseada em evidências criticaram a adoção de intervenções avaliadas usando apenas dados observacionais. Achamos que todos poderiam se beneficiar se os protagonistas mais radicais da medicina baseada em evidências organizassem e participassem de um ensaio duplo-cego, randomizado, controlado por placebo e cruzado do pára-quedas. ”

Escreva um artigo adequado para um jornal de leitura geral, como o New York Times , argumentando contra a fetichização de evidências experimentais. Forneça exemplos específicos e concretos. Dica: Veja também Deaton (2010) e Bothwell et al. (2016) .
[ , , Os estimadores de diferença-em-diferenças de um efeito de tratamento podem ser mais precisos do que os estimadores de diferença em média. Escreva um memorando para um engenheiro encarregado do teste A / B em uma empresa iniciante de mídia social explicando o valor da abordagem diferença-em-diferenças para executar um experimento on-line. O memorando deve incluir uma declaração do problema, alguma intuição sobre as condições sob as quais o estimador diferença-em-diferença superará o estimador diferença-em-média e um simples estudo de simulação.
[ , Gary Loveman foi professor da Harvard Business School antes de se tornar CEO da Harrah's, uma das maiores empresas de cassino do mundo. Quando ele se mudou para a Harrah's, Loveman transformou a empresa com um programa de fidelidade que exibia uma quantidade enorme de dados sobre o comportamento do cliente. Além desse sistema de medição sempre ativo, a empresa começou a realizar experimentos. Por exemplo, eles podem realizar um experimento para avaliar o efeito de um cupom para uma diária gratuita de hotel para clientes com um padrão de jogo específico. Veja como Loveman descreveu a importância da experimentação para as práticas comerciais diárias da Harrah:

“É como se você não assediasse as mulheres, não roubasse e tivesse um grupo de controle. Essa é uma das coisas pelas quais você pode perder seu emprego no Harrah's - não administrar um grupo de controle. ” (Manzi 2012, 146)

Escreva um e-mail para um novo funcionário explicando porque Loveman acha que é tão importante ter um grupo de controle. Você deve tentar incluir um exemplo - seja real ou inventado - para ilustrar seu ponto.
[ , $requer matemática$ Um novo experimento visa estimar o efeito de receber lembretes de mensagens de texto sobre a captação de vacinas. Cento e cinquenta clínicas, cada uma com 600 pacientes elegíveis, estão dispostas a participar. Há um custo fixo de US $ 100 para cada clínica com a qual você deseja trabalhar e custa US $ 1 para cada mensagem de texto que você deseja enviar. Além disso, quaisquer clínicas com as quais você esteja trabalhando medirão o resultado (se alguém recebeu uma vacina) de graça. Suponha que você tenha um orçamento de US $ 1.000.
1. Em que condições seria melhor concentrar seus recursos em um pequeno número de clínicas e em que condições seria melhor difundi-las mais amplamente?
2. Quais fatores determinariam o menor tamanho de efeito que você conseguirá detectar com segurança com seu orçamento?
3. Escreva um memorando explicando essas trocas a um possível financiador.
[ , $requer matemática$ Um dos principais problemas dos cursos on-line é o atrito: muitos alunos que iniciam cursos acabam desistindo. Imagine que você esteja trabalhando em uma plataforma de aprendizado on-line e um designer da plataforma criou uma barra de progresso visual que, segundo ela, ajudará a impedir que os alunos abandonem o curso. Você quer testar o efeito da barra de progresso nos alunos de um grande curso de ciências sociais computacionais. Depois de abordar qualquer questão ética que possa surgir no experimento, você e seus colegas ficam preocupados com a possibilidade de o curso não ter alunos suficientes para detectar com segurança os efeitos da barra de progresso. Nos cálculos seguintes, você pode assumir que metade dos alunos receberá a barra de progresso e metade não. Além disso, você pode assumir que não há interferência. Em outras palavras, você pode assumir que os participantes são afetados apenas por receberem o tratamento ou controle; elas não são afetadas pelo fato de outras pessoas receberem o tratamento ou controle (para uma definição mais formal, ver capítulo 8 de Gerber and Green (2012) ). Acompanhe todas as suposições adicionais que você faz.
1. Suponha que a barra de progresso deva aumentar a proporção de alunos que terminam a turma em 1 ponto percentual; Qual é o tamanho da amostra necessária para detectar o efeito de forma confiável?
2. Suponha que a barra de progresso deva aumentar a proporção de alunos que concluem a aula em 10 pontos percentuais; Qual é o tamanho da amostra necessária para detectar o efeito de forma confiável?
3. Agora imagine que você realizou o experimento e os alunos que concluíram todos os materiais do curso fizeram um exame final. Quando você compara as pontuações do exame final dos alunos que receberam a barra de progresso com as pontuações dos que não o fizeram, você descobre, para sua surpresa, que os alunos que não receberam a barra de progresso realmente pontuaram mais alto. Isso significa que a barra de progresso fez com que os alunos aprendessem menos? O que você pode aprender com esses dados de resultados? (Dica: Veja o capítulo 7 de Gerber and Green (2012) )
[ , , Imagine que você esteja trabalhando como cientista de dados em uma empresa de tecnologia. Alguém do departamento de marketing pede sua ajuda para avaliar um experimento que está planejando para medir o retorno do investimento (ROI) de uma nova campanha publicitária on-line. O ROI é definido como o lucro líquido da campanha dividido pelo custo da campanha. Por exemplo, uma campanha que não teve efeito sobre as vendas teria um ROI de -100%; uma campanha em que os lucros gerados fossem iguais aos custos teria um ROI de 0; e uma campanha em que os lucros gerados fossem o dobro do custo teria um ROI de 200%.

Antes de iniciar o experimento, o departamento de marketing fornece as seguintes informações com base em suas pesquisas anteriores (na verdade, esses valores são típicos das campanhas publicitárias online reais relatadas em Lewis e Rao (2015) ):
- A média de vendas por cliente segue uma distribuição log-normal com uma média de US $ 7 e um desvio padrão de US $ 75.
- A campanha deve aumentar as vendas em US $ 0,35 por cliente, o que corresponde a um aumento no lucro de US $ 0,175 por cliente.
- O tamanho planejado do experimento é de 200.000 pessoas: metade no grupo de tratamento e metade no grupo de controle.
- O custo da campanha é de US $ 0,14 por participante.
- O ROI esperado para a campanha é de 25% [ $(0.175 - 0.14)/0.14$ ]. Em outras palavras, o departamento de marketing acredita que, para cada 100 dólares gastos em marketing, a empresa ganhará um lucro adicional de 25 dólares.
Escreva um memorando avaliando este experimento proposto. Seu memorando deve usar evidências de uma simulação criada por você e deve abordar dois problemas principais: (1) Você recomendaria o lançamento desse experimento como planejado? Se sim, porque? Se não, por que não? Certifique-se de ser claro sobre os critérios que você está usando para tomar essa decisão. (2) Qual tamanho de amostra você recomendaria para este experimento? Novamente, por favor, certifique-se de ser claro sobre os critérios que você está usando para tomar essa decisão.

Um bom memorando abordará esse caso específico; um memorando melhor irá generalizar a partir deste caso de uma maneira (por exemplo, mostrar como a decisão muda em função do tamanho do efeito da campanha); e um ótimo memorando apresentará um resultado totalmente generalizado. Seu memorando deve usar gráficos para ajudar a ilustrar seus resultados.

Aqui estão duas dicas. Primeiro, o departamento de marketing pode ter lhe fornecido algumas informações desnecessárias e elas podem ter falhado em fornecer algumas informações necessárias. Segundo, se você estiver usando R, esteja ciente de que a função rlnorm () não funciona da maneira que muitas pessoas esperam.

Esta atividade lhe dará prática com análise de poder, criando simulações e comunicando seus resultados com palavras e gráficos. Ele deve ajudar você a conduzir análises de energia para qualquer tipo de experiência, não apenas experimentos projetados para estimar o ROI. Esta atividade pressupõe que você tenha alguma experiência com testes estatísticos e análise de energia. Se você não estiver familiarizado com a análise de potência, recomendo que você leia “A Power Primer” de Cohen (1992) .

Esta atividade foi inspirada por um adorável artigo de RA Lewis and Rao (2015) , que ilustra vividamente uma limitação estatística fundamental até mesmo de experimentos massivos. Seu artigo - que originalmente tinha o título provocativo “Sobre a quase impossibilidade de medir os retornos da publicidade” - mostra como é difícil medir o retorno sobre o investimento de anúncios on-line, mesmo com experimentos digitais envolvendo milhões de clientes. De maneira mais geral, RA Lewis and Rao (2015) ilustram um fato estatístico fundamental que é particularmente importante para experimentos com a era digital: é difícil estimar pequenos efeitos do tratamento em meio a dados de resultados ruidosos.
[ , $requer matemática$ Faça o mesmo que a pergunta anterior, mas, em vez de simulação, você deve usar resultados analíticos.
[ , $requer matemática$ , ] Faça o mesmo que a pergunta anterior, mas use tanto a simulação quanto os resultados analíticos.
[ , $requer matemática$ , Imagine que você tenha escrito o memorando descrito acima, e alguém do departamento de marketing forneça uma nova informação: eles esperam uma correlação de 0,4 entre as vendas antes e depois do experimento. Como isso altera as recomendações no seu memorando? (Dica: veja a seção 4.6.2 para mais informações sobre o estimador de diferença de médias e o estimador de diferença-em-diferenças.)
[ , $requer matemática$ ] Para avaliar a eficácia de um novo programa de assistência ao emprego baseado na Internet, uma universidade realizou um teste aleatório de controle entre 10 mil estudantes que entram no último ano da escola. Uma assinatura gratuita com informações exclusivas de login foi enviada por meio de um convite exclusivo por e-mail para 5.000 dos alunos selecionados aleatoriamente, enquanto os outros 5.000 alunos estavam no grupo de controle e não tinham uma assinatura. Doze meses depois, uma pesquisa de acompanhamento (sem nenhuma resposta) mostrou que, tanto no grupo de tratamento quanto no de controle, 70% dos estudantes conseguiram um emprego em tempo integral no campo escolhido (tabela 4.6). Assim, parecia que o serviço baseado na web não teve efeito.

No entanto, um cientista de dados inteligente da universidade examinou os dados um pouco mais de perto e descobriu que apenas 20% dos alunos do grupo de tratamento já tinham feito login na conta depois de receber o e-mail. Além disso, e de forma surpreendente, entre os que acessaram o site, apenas 60% conseguiram um emprego em tempo integral em seu campo escolhido, que foi menor que a taxa para pessoas que não fizeram login e menor que a taxa para pessoas na condição de controle (tabela 4.7).
1. Forneça uma explicação para o que pode ter acontecido.
2. Quais são as duas maneiras diferentes de calcular o efeito do tratamento neste experimento?
3. Dado este resultado, deve o fornecimento deste serviço a todos os alunos? Só para ficar claro, isso não é uma pergunta com uma resposta simples.
4. O que eles devem fazer a seguir?
Dica: essa questão vai além do material abordado neste capítulo, mas aborda problemas comuns em experimentos. Este tipo de desenho experimental é às vezes chamado de desenho de encorajamento porque os participantes são encorajados a se engajar no tratamento. Esse problema é um exemplo do que é chamado de não-adesão unilateral (ver capítulo 5 de Gerber and Green (2012) ).
[ Depois de um exame mais aprofundado, descobriu-se que o experimento descrito na pergunta anterior era ainda mais complicado. Descobriu-se que 10% das pessoas do grupo de controle pagavam pelo acesso ao serviço e acabaram com uma taxa de emprego de 65% (tabela 4.8).
1. Escreva um e-mail resumindo o que você acha que está acontecendo e recomende um curso de ação.
Dica: essa questão vai além do material abordado neste capítulo, mas aborda problemas comuns em experimentos. Esse problema é um exemplo do que é chamado de não-conformidade bilateral (veja o capítulo 6 de Gerber and Green (2012) ).

Tabela 4.6: Visualização simples de dados do experimento de serviços de carreira
Grupo	Tamanho	Taxa de emprego
Acesso concedido ao site	5.000	70%
Não é concedido acesso ao site	5.000	70%

Tabela 4.7: Visão mais completa dos dados do experimento de serviços de carreira
Grupo	Tamanho	Taxa de emprego
Concedido acesso ao site e logado	1.000	60%
Concedido acesso ao site e nunca logado	4.000	72,5%
Não é concedido acesso ao site	5.000	70%

Tabela 4.8: Visão completa dos dados da experiência de serviços de carreira
Grupo	Tamanho	Taxa de emprego
Concedido acesso ao site e logado	1.000	60%
Concedido acesso ao site e nunca logado	4.000	72,5%
Não é concedido acesso ao site e pago por isso	500	65%
Não foi concedido acesso ao site e não pagou por isso	4.500	70,56%