2.4.3.2 Matching

Coincidencia de crear comparaciones justas mediante la poda de distancia casos.

comparaciones justas pueden provenir tanto de experimentos controlados aleatorios o experimentos naturales. Sin embargo, hay muchas situaciones en las que no se puede ejecutar el experimento ideal y la naturaleza no ha proporcionado un experimento natural. En esta configuración, la mejor manera de crear una comparación justa es coincidente. En concordancia, el investigador se ve a través de datos no experimentales para crear pares de las personas que son similares excepto que uno ha recibido el tratamiento y uno no tiene. En el proceso de adaptación, los investigadores están de hecho también la poda; es decir, descartando los casos donde no hay comparación obvia. Por lo tanto, este método se llama más precisión a juego-y-poda, pero me quedo con el término tradicional: a juego.

Un hermoso ejemplo de la potencia de búsqueda de estrategias con las fuentes de datos no experimentales masivos provienen de la investigación sobre el comportamiento de los consumidores de Liran Einav y sus colegas (2015) . Einav y sus colegas estaban interesados ​​en las subastas que tienen lugar en eBay, y en la descripción de su trabajo, me centraré en un aspecto particular: el efecto del precio de salida de la subasta en los resultados de subastas, tales como el precio de venta o la probabilidad de una venta.

La forma más ingenua de responder a la pregunta sobre el efecto del precio de salida a la venta el precio sería simplemente calcular el precio final de las subastas con diferentes precios de salida. Este enfoque estaría bien si simplemente quiere predecir el precio de venta de un artículo dado que se había puesto en eBay con un precio de salida dado. Pero, si su pregunta es ¿cuál es el efecto del precio de salida en los resultados del mercado este enfoque no funcionará porque no se basa en comparaciones justas; las subastas con precios de salida más bajos pueden ser muy diferentes de las subastas con precios de salida superiores (por ejemplo, podrían ser de diferentes tipos de bienes o incluir diferentes tipos de vendedores).

Si ya está preocupado por hacer comparaciones justas, es posible omitir el enfoque ingenuo y considerar la ejecución de un experimento de campo donde usted quiere vender un determinado elemento, por ejemplo, un club con campo de un conjunto fijo de subastas parámetros decir, el envío libre, la subasta abierta durante dos semanas, etc., pero con precios a partir establecer al azar. Al comparar los resultados del mercado resultantes, este experimento de campo ofrecería una medición muy clara del efecto del precio de salida a la venta precio. Sin embargo, esta medida sólo se aplicaría a un producto en particular y un conjunto de parámetros de la subasta. Los resultados pueden ser diferentes, por ejemplo, para diferentes tipos de productos. Sin teoría fuerte, es difícil extrapolar a partir de este experimento único toda la gama de posibles experimentos que podrían haber sido dirigido. Además, los experimentos de campo son suficientemente caro que sería inviable para funcionar lo suficiente de ellos para cubrir todo el espacio de los parámetros de los productos y tipos de subastas.

En contraste con el enfoque ingenuo y el enfoque experimental, Einav y sus colegas toman un tercer enfoque: a juego. El truco principal de su estrategia es descubrir cosas similares a los experimentos de campo que ya han ocurrido en eBay. Por ejemplo, la Figura 2.6 muestra algunos de los 31 listados de exactamente el mismo tipo club, un campo de TaylorMade-09 Controlador de ser vendida por exactamente el mismo "budgetgolfer" vendedor-. Sin embargo, estos elementos tienen características ligeramente diferentes. Once de ellos ofrecen al conductor por un precio fijo de $ 124,99, mientras que los otros 20 son las subastas con diferentes fechas de finalización. Además, los anuncios tienen diferentes tarifas de envío, ya sea $ 7,99 o $ 9,99. En otras palabras, es como si "budgetgolfer" se está ejecutando experimentos de los investigadores.

Los listados de la TaylorMade conductor 09 que se venden por "budgetgolfer" son un ejemplo de un conjunto combinado de máquinas, donde el mismo artículo se está vendiendo por el mismo vendedor exacta, pero cada vez con características ligeramente diferentes. Dentro de los enormes troncos de eBay hay literalmente cientos de miles de conjuntos emparejados que implican millones de listados. Por lo tanto, en lugar de comparar el precio final para todas las subastas dentro de un precio de salida dado, Einav y sus colegas hacen comparaciones dentro de conjuntos emparejados. Con el fin de combinar los resultados de las comparaciones dentro de estos cientos de miles de conjuntos emparejados, Einav y sus colegas re-expresar el precio de salida y el precio final en términos del valor de referencia de cada elemento (por ejemplo, su precio medio de venta). Por ejemplo, si el TaylorMade Burner 09 conductor tiene un valor de referencia de $ 100 (sobre la base de sus ventas), a continuación, un precio inicial de $ 10 se expresa como el 0,1 y el precio final de $ 120 se expresaría como 1.2.

Figura 2.6: Un ejemplo de un juego completo. Este es el mismo club de golf exacta (Conductor TaylorMade Burner 09) siendo vendido por la misma persona (budgetgolfer), pero algunas de estas ventas se realizaron diferentes condiciones (por ejemplo, diferente precio inicial). Figura tomada de Einav et al. (2015).

Figura 2.6: Un ejemplo de un juego completo. Este es el mismo club de golf exacta (Conductor TaylorMade Burner 09) siendo vendido por la misma persona ( "budgetgolfer"), pero algunas de estas ventas se realizaron diferentes condiciones (por ejemplo, diferente precio inicial). Figura tomada de Einav et al. (2015) .

Recordemos que Einav y sus colegas estaban interesados ​​en el efecto del precio de inicio en los resultados de la subasta. En primer lugar, el uso de regresión lineal se estima que los precios iniciales más elevadas disminuyen la probabilidad de una venta, y que los precios de partida más altas aumentan el precio de venta final, condicionado a una venta que se produzcan. Por sí mismos, estos cálculos -que se promedian sobre todos los productos y asumen una relación lineal entre el precio inicial y final no-resultados son tan interesante. Pero, Einav y sus colegas utilizan también el enorme tamaño de sus datos para estimar una variedad de resultados más sutiles. En primer lugar, Einav y colegas hicieron estas estimaciones por separado para los artículos de diferentes precios y sin el uso de regresión lineal. Ellos encontraron que, si bien la relación entre el precio de salida y la probabilidad de una venta es lineal, la relación entre el precio inicial y el precio de venta es claramente no lineal (Figura 2.7). En particular, para el inicio de los precios de entre 0,05 y 0,85, el precio de salida tiene muy poco impacto en el precio de venta, un hallazgo que se completó perdido en el análisis que había asumido una relación lineal.

Figura 2.7: Relación entre el precio de la subasta de inicio y la probabilidad de una venta (panel izquierdo) y el precio de venta (panel derecho). Hay más o menos una relación lineal entre el precio inicial y la probabilidad de venta, sino que existe una relación no lineal entre el precio inicial y el precio de venta; para el inicio de precios entre 0,05 y 0,85, el precio de salida tiene muy poco impacto en el precio de venta. En ambos casos, las relaciones son básicamente independientes de valor del artículo. Estos gráficos se reproducen Fig 4a y 4b Einav et al. (2015).

Figura 2.7: Relación entre el precio de la subasta de inicio y la probabilidad de una venta (panel izquierdo) y el precio de venta (panel derecho). Hay más o menos una relación lineal entre el precio inicial y la probabilidad de venta, sino que existe una relación no lineal entre el precio inicial y el precio de venta; para el inicio de precios entre 0,05 y 0,85, el precio de salida tiene muy poco impacto en el precio de venta. En ambos casos, las relaciones son básicamente independientes de valor del artículo. Estos gráficos se reproducen Fig 4a y 4b Einav et al. (2015) .

En segundo lugar, en vez de mostrar un promedio sobre todos los artículos, Einav y sus colegas utilizan también el gran tamaño de sus datos para estimar el impacto del precio de salida de 23 categorías diferentes de elementos (por ejemplo, alimentos para mascotas, electrónica y artículos deportivos de colección) (Figura 2.8). Estas estimaciones muestran que para más distintivos elementos, tales como el precio recuerdos de inicio tiene un menor efecto sobre la probabilidad de una venta y un mayor efecto sobre el precio de venta final. Además, para los artículos más mercantilizadas-tales como DVD y vídeo en el precio de inicio casi no tiene impacto en el precio final. En otras palabras, un promedio que combina los resultados de 23 categorías diferentes de artículos oculta información importante acerca de las diferencias entre estos elementos.

Figura 2.8: Los resultados mostraron estimaciones de cada categoría individual; el punto sólido en la estimación para todas las categorías agruparon, Tabla 11 (Einav et al. 2015, Tabla 11). Estas estimaciones muestran que para más distintivos elementos, tales como objetos de interés, el precio de inicio tiene un menor efecto sobre la probabilidad de una venta (eje x) y un mayor efecto sobre el precio de venta final (eje y).

Figura 2.8: Los resultados mostraron estimaciones de cada categoría individual; el punto sólido en la estimación para todas las categorías agrupados juntos (Einav et al. 2015, Table 11) . Estas estimaciones muestran que para más distintivos elementos, tales como objetos de interés, el precio de inicio tiene un menor efecto sobre la probabilidad de una venta (eje x) y un mayor efecto sobre el precio de venta final (eje y).

Incluso si usted no está particularmente interesado en las subastas en eBay, hay que admirar la forma en que la Figura 2.7 y Figura 2.8 ofrece una comprensión más rica de eBay que simples cálculos de regresión lineal que asumen las relaciones lineales y combinan diferentes categorías de artículos. Estas estimaciones más sutiles ilustran el poder de hacer coincidir en masivo de datos; estas estimaciones no hubieran sido posibles sin un enorme número de experimentos de campo, lo cual habría sido prohibitivamente caro.

Por supuesto, debemos tener menos confianza en los resultados de cualquier estudio concreto de coincidencia de lo que haría en los resultados de un experimento similar. Al evaluar los resultados de cualquier estudio a juego, hay dos preocupaciones importantes. En primer lugar, tenemos que recordar que sólo podemos garantizar comparaciones justas sobre las cosas que se utilizaron para la coincidencia. En sus principales resultados, Einav y colegas no coincidencia exacta en cuatro características: Número de Identificación vendedor, artículo Categoría, Título del artículo, y subtítulos. Si los artículos son diferentes en formas que no fueron utilizados para la coincidencia, que podrían provocar una comparación injusta. Por ejemplo, si "budgetgolfer" bajado los precios para TaylorMade Burner 09 Conductor en el invierno (cuando palos de golf son menos populares), entonces podría parecer que los precios iniciales más bajos conducen a bajar los precios finales, cuando en realidad esto sería un artefacto de la temporada variación de la demanda. En general, el mejor enfoque para este problema parece estar tratando de muchos tipos diferentes de juego. Por ejemplo, Einav y sus colegas repiten su análisis en conjuntos emparejados incluyen artículos a la venta dentro de un año, un mes, y contemporáneamente. Hacer la ventana de tiempo más estrecha disminuye el número de conjuntos emparejados, pero reduce las preocupaciones sobre la variación estacional. Afortunadamente, se encuentran con que los resultados no se han modificado por estos cambios en los criterios de correspondencia. En la bibliografía correspondiente, este tipo de interés se expresa generalmente en términos de observables y no observables, pero la idea clave es verdad que los investigadores sólo están creando comparaciones justas sobre las características utilizadas en juego.

La segunda preocupación importante en la interpretación de los resultados de búsqueda es que sólo se aplican a los datos combinados; que no se aplican a los casos que no pudieron ser igualadas. Por ejemplo, al limitar su investigación a los elementos que tenían múltiples listados Einav y sus colegas se están centrando en los vendedores profesionales y semi-profesionales. Por lo tanto, al interpretar estas comparaciones hay que recordar que sólo se aplican a este subconjunto de eBay.

Matching es una estrategia poderosa para encontrar comparaciones justas en grandes conjuntos de datos. Para muchos científicos sociales, a juego se siente como el segundo mejor de los experimentos, sino que es la creencia de que debe ser revisado, ligeramente. Coincidente en masivo de datos podría ser mejor que un pequeño número de experimentos de campo cuando: 1) la heterogeneidad de los efectos es importante y 2) no son buenos para los observables a juego. Tabla 2.4 proporciona algunos otros ejemplos de cómo se puede utilizar con fuentes de datos grandes a juego.

Tabla 2.4: Ejemplos de estudios que usan a juego para encontrar comparaciones justas dentro de las huellas digitales.
enfoque sustantivo fuente de datos grande Citación
Efecto de disparos sobre la violencia policial Detener y registrar los registros Legewie (2016)
Efecto del 11 de septiembre de 2001, sobre las familias y los vecinos registros de votación y archivos de las donaciones Hersh (2013)
contagio social La comunicación y la adopción de productos de datos Aral, Muchnik, and Sundararajan (2009)

En conclusión, los enfoques ingenuos a la estimación de los efectos causales a partir de datos experimentales no son peligrosos. Sin embargo, las estrategias para hacer estimaciones causales se extiende a lo largo de un continuo que va de fuerte al más débil, y los investigadores pueden descubrir comparaciones justas dentro de los datos no experimentales. El crecimiento de los sistemas de datos, siempre-en grandes aumenta nuestra capacidad de utilizar con eficacia dos métodos existentes: experimentos naturales y coincidente.