2.4.3.2 Matching

Correspondencia de crear comparacións xustas pola poda de distancia casos.

comparacións xustas pode vir de calquera experimentos controlados randomizados ou experimentos naturais. Pero hai moitas situacións nas que non pode realizar o experimento ideal ea natureza non solicitado un experimento natural. Nestes ambientes, a mellor forma de crear unha comparación xusta está combinando. Na correspondencia, o investigador mira a través de datos non experimentais para crear pares de persoas que son similares, agás que un recibiu o tratamento e non ten. No proceso de correspondencia, os investigadores están, en realidade tamén poda; isto é, descartando casos en que non hai comparación obvia. Así, a rede sería máis chamado con precisión a correspondencia de correo poda, pero eu vou ir co termo tradicional: correspondencia.

Un fermoso exemplo do poder de estratexias con fontes de datos non experimentais masivas correspondentes veñen de investigación sobre o comportamento do consumidor por Liran Einav e colaboradores (2015) . Einav e os seus compañeiros estaban interesados ​​en poxas que se producen en eBay, e ao describir o seu traballo, vou concentrar en un aspecto particular: o efecto do prezo inicial sobre os resultados de poxas, como o prezo de venda ou a probabilidade de unha venda.

O xeito máis inxenua de responder á pregunta sobre o efecto do prezo inicial no prezo de venda sería simplemente calcular o prezo final para poxas con diferentes prezos de partida. Esta visión sería bo se simplemente quere prever o prezo de venda dun determinado elemento que fora colocado en eBay con un prezo de partida. Pero, se a súa pregunta é cal é o efecto do prezo inicial sobre os resultados do mercado esta visión non vai funcionar porque non está baseada en comparacións xustas; as poxas con prezos iniciais inferiores pode ser moi diferente de poxas con prezos iniciais máis elevadas (por exemplo, poden ser de distintos tipos de bens ou incluír distintos tipos de vendedores).

Se xa está preocupado en facer comparacións xustas, que se pode pasar por alto o enfoque inxenua e considerar a execución dun experimento de campo onde ía vender un elemento específico, por exemplo, un club-co golf un conxunto fixo de poxas parámetros de dicir, frete gratis, poxa aberto para dúas semanas, etc., pero con definido aleatoriamente prezos a partir. Ao comparar os resultados do mercado resultantes, este experimento de campo que ofrecen unha medida moi clara do efecto do prezo a partir de prezo de venda. Pero esta medida só sería aplicable a un determinado produto e un conxunto de parámetros de poxa. Os resultados poden ser diferentes, por exemplo, para os distintos tipos de produtos. Sen teoría forte, é difícil extrapolar a partir deste único experimento toda a gama de posibles experiencias que poderían ser executado. Ademais, experimentos de campo son suficientemente caros que sería inviábel para realizar un número suficiente deles para cubrir todo o espazo de parámetros de produtos e tipos de poxa.

En contraste coa visión inxenua ea visión experimental, Einav e os seus colegas dar unha terceira visión: a correspondencia. O truco principal da súa estratexia é descubrir cousas semellantes a experimentos de campo que xa aconteceron en eBay. Por exemplo, a Figura 2.6 mostra algúns dos 31 anuncios para exactamente o mesmo club de golf a Taylormade Burner 09 Controlador-ser vendido por exactamente o mesmo seller- "budgetgolfer". Con todo, estas listas teñen características lixeiramente diferentes. Once deles ofrecen ao condutor por un prezo fixo de US $ 124,99, mentres que os outros 20 son as poxas con diferentes datas de finalización. Ademais, os anuncios teñen taxas de envío diferentes, ou US $ 7,99 ou US $ 9,99. Noutras palabras, é como se "budgetgolfer" está a executar experiencias para os investigadores.

As listaxes do Taylormade Burner 09 controlador ser vendidos por "budgetgolfer" son un exemplo dun conxunto combinado de elementos, onde exactamente o mesmo elemento está a ser vendido por exactamente o mesmo vendedor, pero cada vez con características lixeiramente diferentes. Dentro das toras masivas de eBay, hai literalmente centos de miles de conxuntos combinados inclúen millóns de anuncios. Así, en vez de comparar o prezo final para todo poxas dentro dun determinado prezo inicial, Einav e os seus colegas facer comparacións dentro conxuntos combinados. A fin de combinar os resultados das comparacións dentro desas centos de miles de conxuntos combinados, Einav e os seus colegas re-expresar o prezo inicial eo prezo final en canto ao valor de referencia de cada elemento (por exemplo, o seu prezo medio de venda). Por exemplo, se o Taylormade Burner 09 condutor ten un valor de referencia de US $ 100 (en base ás súas vendas), a continuación, un prezo inicial de US $ 10 sería expresado como 0,1 e prezo final de US $ 120 sería expresado como 1.2.

Figura 2.6: Un exemplo dun conxunto combinado. Este é o mesmo club de golf (un controlador Taylormade Burner 09) a ser vendido pola mesma persoa exacta (budgetgolfer), pero algunhas destas vendas foron realizadas diferentes condicións (por exemplo, prezo de partida diferente). Imaxe feita a partir Einav et ai. (2015).

Figura 2.6: Un exemplo dun conxunto combinado. Este é o mesmo club de golf (un controlador Taylormade Burner 09) a ser vendido por exactamente a mesma persoa ( "budgetgolfer"), pero algunhas destas vendas foron realizadas condicións diferentes (por exemplo, prezo de partida diferente). Imaxe feita a partir Einav et al. (2015) .

Lembre que Einav e os seus compañeiros estaban interesados ​​no efecto do prezo inicial sobre os resultados da poxa. En primeiro lugar, por medio de regresión lineal eles estimaron que os prezos iniciais máis altos diminuír a probabilidade de unha venda, e que os prezos iniciais máis altas aumentan o prezo de venda final, condicionada a unha venda produciron. Por si só, estas estimacións-calculadas en media durante todos os produtos e asumir unha relación lineal entre prezo inicial e final non resultados, son todo o que interesante. Pero Einav e compañeiros tamén usar o enorme tamaño dos seus datos para estimar unha variedade de resultados máis sutís. En primeiro lugar, Einav e compañeiros fixeron esas estimacións separado para elementos de prezos diferentes e sen o uso de regresión lineal. Descubriron que, mentres a relación entre o prezo inicial e probabilidade dunha venda é lineal, a relación entre o prezo de partida eo prezo de venda é claramente non lineal (Figura 2.7). En particular, para iniciar os prezos entre 0,05 e 0,85, o prezo inicial ten moi pouco impacto sobre o prezo de venda, un descubrimento que se completa perdeu na análise que asumira unha relación lineal.

Figura 2.7: Relación entre Prezo inicial de poxa e probabilidade dunha venda (panel esquerdo) e prezo de venda (panel dereito). Hai aproximadamente unha relación lineal entre o prezo de inicio e probabilidade de venda, pero non hai unha relación non lineal entre o prezo de inicio e prezo de venda; para iniciar prezos entre 0,05 e 0,85, o prezo inicial ten moi pouco impacto sobre o prezo de venda. En ambos os casos, as relacións son basicamente independente do valor do elemento. Estes gráficos reproducir figura 4a e 4b Einav et ai. (2015).

Figura 2.7: Relación entre Prezo inicial de poxa e probabilidade dunha venda (panel esquerdo) e prezo de venda (panel dereito). Hai aproximadamente unha relación lineal entre o prezo de inicio e probabilidade de venda, pero non hai unha relación non lineal entre o prezo de inicio e prezo de venda; para iniciar prezos entre 0,05 e 0,85, o prezo inicial ten moi pouco impacto sobre o prezo de venda. En ambos os casos, as relacións son basicamente independente do valor do elemento. Estes gráficos reproducir figura 4a e 4b Einav et al. (2015) .

En segundo lugar, en vez de unha media de máis todos os elementos, Einav e compañeiros tamén usar a escala dos seus datos para estimar o impacto do prezo inicial por 23 diferentes categorías de elementos (por exemplo, fontes do animal de compañía, electrónicos e memorabília de deportes) (Figura 2.8). Estas estimacións indican que hai máis distintivas elementos, como o prezo memorabília de inicio ten un efecto menor sobre a probabilidade de unha venda e un efecto maior sobre o prezo de venda final. Ademais, para elementos, tales máis mercantilizadas como DVDs e vídeo do prezo inicial non ten case ningún impacto sobre o prezo final. Noutras palabras, unha media que combina resultados de 23 diferentes categorías de elementos esconde información importante sobre as diferenzas entre estes elementos.

Figura 2.8: Os resultados mostraron estimacións de cada categoría individual; o punto sólido na estimación para todas as categorías reunidas, Táboa 11 (Einav et al., 2015, Táboa 11). Estas estimacións indican que hai máis distintivas elementos como memorabília o prezo inicial ten un efecto menor sobre a probabilidade de unha venda (eixo-x) e un efecto maior sobre o prezo de venda final (eixe y).

Figura 2.8: Os resultados mostraron estimacións de cada categoría individual; o punto sólido na estimación para todas as categorías que se reuniron (Einav et al. 2015, Table 11) . Estas estimacións indican que hai máis distintivas elementos como memorabília o prezo inicial ten un efecto menor sobre a probabilidade de unha venda (eixo-x) e un efecto maior sobre o prezo de venda final (eixe y).

Mesmo se non está particularmente interesado en poxas en eBay, ten que admirar a forma que a Figura 2.7 e Imaxe 2.8 ofrecen unha comprensión máis rica do eBay que as estimacións de regresión lineal simple que asumen relacións lineais e combinan moitas categorías diferentes de elementos. Estas estimacións máis sutís ilustrar o poder de combinar o macizo de datos; estas estimacións sería imposible sen un enorme número de experimentos de campo, o que sería prohibitivo caro.

Claro, hai que ter menos confianza nos resultados de calquera estudo correspondente específica do que nos resultados dunha experiencia comparable. Ao avaliar os resultados de calquera estudo de correspondencia, hai dúas preocupacións importantes. En primeiro lugar, hai que lembrar que só podemos garantir comparacións xustas sobre as cousas que foron utilizados para a correspondencia. Nos seus principais resultados, Einav e compañeiros fixo correspondencia exacta en catro características: Número vendedor ID, categoría de elemento, título do elemento, e subtítulos. Se os elementos eran diferentes de formas que non foron utilizados para a correspondencia, que poderían crear unha comparación inxusta. Por exemplo, se "budgetgolfer" baixou os prezos Taylormade Burner 09 controlador no inverno (cando os clubs de golf son menos populares), el podería parecer que os prezos iniciais máis baixos levan á redución dos prezos finais, cando en realidade iso sería un artefacto de temporada variación da demanda. En xeral, a mellor visión para este problema parece estar intentando diferentes tipos de correspondencia. Por exemplo, Einav e compañeiros repetir a súa análise en conxuntos combinados inclúen elementos á venda dentro dun ano, o mes, e á vez. Facendo a fiestra de tempo máis axustado diminúe o número de conxuntos combinados, pero reduce problemas sobre a variación estacional. Afortunadamente, eles pensan que os resultados mantéñense se inalterados por estes cambios nos criterios correspondentes. Na literatura correspondente, este tipo de preocupación é normalmente expresada en termos de observables e non observables, senón a idea clave é realmente que os investigadores están só creando comparacións xustas sobre os recursos utilizados na correspondencia.

A segunda gran preocupación na interpretación dos resultados correspondentes é que só se aplica aos datos combinados; non se aplican aos casos que non puideron ser atopados. Por exemplo, ao limitar as súas investigacións a elementos que tiveron varias listas Einav e os seus colegas están concentrando en empresas profesionais e semi-profesionais. Así, ao interpretar esas comparacións hai que lembrar que só se aplica a este subconxunto de eBay.

Matching é unha estratexia poderosa para atopar comparacións xustas en grandes conxuntos de datos. Para moitos científicos sociais, a correspondencia se sente como segundo mellor experiencias, pero iso é unha crenza de que debe ser revisado, lixeiramente. Matching en datos masivos pode ser mellor que un pequeno número de experimentos de campo cando: 1) heteroxeneidade en efectos é importante e 2) hai boas observables para a correspondencia. Táboa 2.4 ofrece algúns outros exemplos de como combinar pode ser usado con fontes de datos grandes.

Táboa 2.4: Exemplos de estudos que usan correspondencia para atopar comparacións xustas no prazo de vestixios dixitais.
foco substancial fonte de datos grande cita
Efecto tiroteos sobre violencia policial Stop-and-Frisk rexistros Legewie (2016)
Efecto do 11 de setembro de 2001 sobre as familias e veciños rexistros de votación e rexistros de doazón Hersh (2013)
contaxio social Comunicación e adopción de produtos de datos Aral, Muchnik, and Sundararajan (2009)

En conclusión, os enfoques inxenuas para estimar os efectos causais de datos non experimentais son perigosos. Con todo, as estratexias para facer estimacións causais situadas ao longo dun continuum do máis forte para o máis feble, e os investigadores poden descubrir comparacións xustas dentro datos non experimentais. O crecemento dos sistemas de datos always-on, grandes aumenta a nosa capacidade de utilizar eficazmente dous métodos existentes: experimentos naturais e combinando.