2.4.3.2 Matching

Esta tradução foi criado por um computador. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

2.4.3.2 Matching

Correspondência de criar comparações justas pela poda de distância casos.

comparações justas pode vir de qualquer experimentos controlados randomizados ou experimentos naturais. Mas, há muitas situações em que você não pode executar o experimento ideal ea natureza não tenha fornecido um experimento natural. Nesses ambientes, a melhor maneira de criar uma comparação justa está combinando. Na correspondência, o pesquisador olha através de dados não-experimentais para criar pares de pessoas que são semelhantes, exceto que um recebeu o tratamento e não tem. No processo de correspondência, os pesquisadores estão, na verdade também poda; isto é, descartando casos em que não há comparação óbvia. Assim, este método seria mais chamado com precisão a correspondência de e-poda, mas eu vou ficar com o termo tradicional: correspondência.

Um belo exemplo do poder de estratégias com fontes de dados não-experimentais maciças correspondentes vêm da pesquisa sobre o comportamento do consumidor por Liran Einav e colaboradores (2015) . Einav e seus colegas estavam interessados em leilões que ocorrem no eBay, e ao descrever seu trabalho, vou me concentrar em um aspecto particular: o efeito do preço inicial sobre os resultados de leilões, como o preço de venda ou a probabilidade de uma venda.

A maneira mais ingênua de responder à pergunta sobre o efeito do preço inicial no preço de venda seria simplesmente calcular o preço final para leilões com diferentes preços de partida. Esta abordagem seria bom se você simplesmente quer prever o preço de venda de um determinado item que tinha sido colocado no eBay com um determinado preço de partida. Mas, se a sua pergunta é qual é o efeito do preço inicial sobre os resultados do mercado esta abordagem não vai funcionar porque não é baseada em comparações justas; os leilões com preços iniciais inferiores pode ser bastante diferente de leilões com preços iniciais mais elevadas (por exemplo, eles podem ser de diferentes tipos de bens ou incluir diferentes tipos de vendedores).

Se você já está preocupado em fazer comparações justas, que você pode ignorar a abordagem ingênua e considerar a execução de um experimento de campo onde você iria vender um item específico, digamos, um clube-com o golfe um conjunto fixo de leilões parâmetros de dizer, frete grátis, leilão aberto para duas semanas, etc., mas com definido aleatoriamente preços a partir. Ao comparar os resultados do mercado resultantes, este experimento de campo que oferecem uma medida muito clara do efeito do preço a partir de preço de venda. Mas, esta medida só seria aplicável a um determinado produto e um conjunto de parâmetros de leilão. Os resultados podem ser diferentes, por exemplo, para diferentes tipos de produtos. Sem teoria forte, é difícil extrapolar a partir deste único experimento toda a gama de possíveis experiências que poderiam ter sido executado. Além disso, experimentos de campo são suficientemente caros que seria inviável para executar um número suficiente deles para cobrir todo o espaço de parâmetros de produtos e tipos de leilão.

Em contraste com a abordagem ingênua ea abordagem experimental, Einav e seus colegas dar uma terceira abordagem: a correspondência. O truque principal de sua estratégia é descobrir coisas semelhantes a experimentos de campo que já aconteceram no eBay. Por exemplo, a Figura 2.6 mostra alguns dos 31 anúncios para exatamente o mesmo clube de golfe-a Taylormade Burner 09 Controlador-sendo vendido por exatamente o mesmo seller- "budgetgolfer". No entanto, estas listas têm características ligeiramente diferentes. Onze deles oferecem ao condutor por um preço fixo de US $ 124,99, enquanto os outros 20 são os leilões com diferentes datas de término. Além disso, os anúncios têm taxas de envio diferentes, ou US $ 7,99 ou US $ 9,99. Em outras palavras, é como se "budgetgolfer" está a executar experiências para os pesquisadores.

As listagens do Taylormade Burner 09 driver sendo vendidos por "budgetgolfer" são um exemplo de um conjunto combinado de itens, onde exatamente o mesmo item está sendo vendido por exatamente o mesmo vendedor, mas cada vez com características ligeiramente diferentes. Dentro das toras maciças de eBay, existem literalmente centenas de milhares de conjuntos combinados envolvendo milhões de anúncios. Assim, em vez de comparar o preço final para todos os leilões dentro de um determinado preço inicial, Einav e seus colegas fazer comparações dentro de conjuntos combinados. A fim de combinar os resultados das comparações dentro dessas centenas de milhares de conjuntos combinados, Einav e seus colegas re-expressar o preço inicial eo preço final em termos do valor de referência de cada item (por exemplo, o seu preço médio de venda). Por exemplo, se o Taylormade Burner 09 motorista tem um valor de referência de US $ 100 (com base em suas vendas), em seguida, um preço inicial de US $ 10 seria expresso como 0,1 e preço final de US $ 120 seria expresso como 1.2.

Figura 2.6: Um exemplo de um conjunto combinado. Este é exatamente o mesmo clube de golfe (um driver Taylormade Burner 09) sendo vendido pela mesma pessoa exata (budgetgolfer), mas algumas destas vendas foram realizadas diferentes condições (por exemplo, preço de partida diferente). Figura feita a partir Einav et ai. (2015).

Figura 2.6: Um exemplo de um conjunto combinado. Este é exatamente o mesmo clube de golfe (um driver Taylormade Burner 09) sendo vendido por exatamente a mesma pessoa ( "budgetgolfer"), mas algumas destas vendas foram realizadas condições diferentes (por exemplo, preço de partida diferente). Figura feita a partir Einav et al. (2015) .

Lembre-se que Einav e seus colegas estavam interessados no efeito do preço inicial sobre os resultados do leilão. Em primeiro lugar, por meio de regressão linear eles estimaram que os preços iniciais mais altos diminuir a probabilidade de uma venda, e que os preços iniciais mais altas aumentam o preço de venda final, condicionada a uma venda ocorrendo. Por si só, estas estimativas-calculadas em média durante todos os produtos e assumir uma relação linear entre preço inicial e final não resultados, são tudo o que interessante. Mas, Einav e colegas também usar o enorme tamanho dos seus dados para estimar uma variedade de resultados mais sutis. Em primeiro lugar, Einav e colegas fizeram essas estimativas separadamente para itens de preços diferentes e sem a utilização de regressão linear. Eles descobriram que, enquanto a relação entre o preço inicial e probabilidade de uma venda é linear, a relação entre o preço inicial eo preço de venda é claramente não-linear (Figura 2.7). Em particular, para iniciar os preços entre 0,05 e 0,85, o preço inicial tem muito pouco impacto sobre o preço de venda, uma descoberta que foi concluída perdeu na análise que tinha assumido uma relação linear.

Figura 2.7: Relação entre Preço inicial de leilão e probabilidade de uma venda (painel esquerdo) e preço de venda (painel direito). Há cerca de uma relação linear entre o preço de início e probabilidade de venda, mas não há uma relação não-linear entre o preço de início e preço de venda; para iniciar preços entre 0,05 e 0,85, o preço inicial tem muito pouco impacto sobre o preço de venda. Em ambos os casos, as relações são basicamente independente do valor do item. Estes gráficos reproduzir figura 4a e 4b Einav et al. (2015) .

Em segundo lugar, ao invés de uma média de mais todos os itens, Einav e colegas também usar a escala dos seus dados para estimar o impacto do preço inicial por 23 diferentes categorias de itens (por exemplo, fontes do animal de estimação, eletrônicos e memorabilia de esportes) (Figura 2.8). Estas estimativas mostram que há mais distintivas itens, tais como o preço memorabilia de arranque tem um efeito menor sobre a probabilidade de uma venda e um efeito maior sobre o preço de venda final. Além disso, para itens, tais mais mercantilizadas como DVDs e vídeo de o preço inicial não tem quase nenhum impacto sobre o preço final. Em outras palavras, uma média que combina resultados de 23 diferentes categorias de itens esconde informações importantes sobre as diferenças entre esses itens.

Figura 2.8: Os resultados mostraram estimativas de cada categoria individualmente; o ponto sólido na estimativa para todas as categorias reunidas, Tabela 11 (Einav et al., 2015, Tabela 11). Estas estimativas mostram que há mais distintivas itens, tais como memorabilia-o preço inicial tem um efeito menor sobre a probabilidade de uma venda (eixo-x) e um efeito maior sobre o preço de venda final (eixo y).

Figura 2.8: Os resultados mostraram estimativas de cada categoria individualmente; o ponto sólido na estimativa para todas as categorias que se reuniram (Einav et al. 2015, Table 11) . Estas estimativas mostram que há mais distintivas itens, tais como memorabilia-o preço inicial tem um efeito menor sobre a probabilidade de uma venda (eixo-x) e um efeito maior sobre o preço de venda final (eixo y).

Mesmo se você não está particularmente interessado em leilões no eBay, você tem que admirar a forma que a Figura 2.7 e Figura 2.8 oferecem uma compreensão mais rica do eBay que as estimativas de regressão linear simples que assumem relações lineares e combinam muitas categorias diferentes de itens. Estas estimativas mais sutis ilustrar o poder de combinar no maciço de dados; estas estimativas teria sido impossível sem um enorme número de experimentos de campo, o que teria sido proibitivamente caro.

É claro, devemos ter menos confiança nos resultados de qualquer estudo correspondente específica do que nós nos resultados de uma experiência comparável. Ao avaliar os resultados de qualquer estudo de correspondência, existem duas preocupações importantes. Em primeiro lugar, temos que lembrar que só podemos garantir comparações justas sobre as coisas que foram utilizados para correspondência. Em seus principais resultados, Einav e colegas fez correspondência exata em quatro características: Número do vendedor ID, categoria de item, título do item, e legendas. Se os itens eram diferentes de formas que não foram utilizados para a correspondência, que poderiam criar uma comparação injusta. Por exemplo, se "budgetgolfer" baixou os preços para Taylormade Burner 09 driver no inverno (quando os clubes de golfe são menos populares), então ele poderia parecer que os preços iniciais mais baixos levam à redução dos preços finais, quando na verdade isso seria um artefato sazonal variação na demanda. Em geral, a melhor abordagem para este problema parece estar tentando diferentes tipos de correspondência. Por exemplo, Einav e colegas repetir a sua análise em conjuntos combinados incluem itens à venda dentro de um ano, no mês, e ao mesmo tempo. Fazendo a janela de tempo mais apertado diminui o número de conjuntos combinados, mas reduz preocupações sobre a variação sazonal. Felizmente, eles acham que os resultados mantêm-se inalterados por estas mudanças nos critérios correspondentes. Na literatura correspondente, este tipo de preocupação é normalmente expressa em termos de observáveis e não observáveis, mas a ideia-chave é realmente que os pesquisadores estão apenas criando comparações justas sobre os recursos usados na correspondência.

A segunda grande preocupação na interpretação dos resultados correspondentes é que eles só se aplica aos dados combinados; eles não se aplicam aos casos que não puderam ser encontrados. Por exemplo, ao limitar suas pesquisas a itens que tiveram várias listas Einav e seus colegas estão se concentrando em vendedores profissionais e semi-profissionais. Assim, ao interpretar essas comparações é preciso lembrar que eles só se aplicam a este subconjunto de eBay.

Matching é uma estratégia poderosa para encontrar comparações justas em grandes conjuntos de dados. Para muitos cientistas sociais, a correspondência se sente como segundo melhor experiências, mas isso é uma crença de que deve ser revisto, ligeiramente. Matching em dados massivos pode ser melhor do que um pequeno número de experimentos de campo quando: 1) heterogeneidade em efeitos é importante e 2) há boas observáveis para correspondência. Tabela 2.4 fornece alguns outros exemplos de como combinar pode ser usado com fontes de dados grandes.

Tabela 2.4: Exemplos de estudos que usam correspondência para encontrar comparações justas no prazo de vestígios digitais.
foco substancial	fonte de dados grande	Citação
Efeito de tiroteios sobre violência policial	Stop-and-Frisk registros	Legewie (2016)
Efeito do 11 de setembro de 2001 sobre as famílias e vizinhos	registros de votação e registros de doação	Hersh (2013)
contágio social	Comunicação e adoção de produtos de dados	Aral, Muchnik, and Sundararajan (2009)

Em conclusão, as abordagens ingênuas para estimar os efeitos causais de dados não-experimentais são perigosos. No entanto, as estratégias para fazer estimativas causais situadas ao longo de um continuum do mais forte para o mais fraco, e os pesquisadores podem descobrir comparações justas dentro dados não-experimentais. O crescimento dos sistemas de dados always-on, grandes aumenta a nossa capacidade de utilizar eficazmente dois métodos existentes: experimentos naturais e combinando.