2.4.1 cosas Counting

Conteo simple puede ser interesante si se combina una buena pregunta con buenos datos.

Aunque está redactado en un lenguaje sofisticado, mucha investigación social es solo contar cosas. En la era de los macrodatos, los investigadores pueden contar más que nunca, pero eso no significa que deban comenzar a contar al azar. En cambio, los investigadores deberían preguntar: ¿qué cosas valen la pena contar? Esto puede parecer una cuestión totalmente subjetiva, pero hay algunos patrones generales.

A menudo los estudiantes motivan su investigación de conteo al decir: voy a contar algo que nadie ha contado antes. Por ejemplo, un estudiante podría decir que muchas personas han estudiado a migrantes y muchas personas han estudiado gemelos, pero nadie ha estudiado a gemelos migratorios. En mi experiencia, esta estrategia, que llamo motivación por ausencia , generalmente no conduce a una buena investigación. La motivación por ausencia es como decir que hay un agujero allí, y voy a trabajar muy duro para llenarlo. Pero no todos los agujeros deben llenarse.

En lugar de motivar por la ausencia, creo que una mejor estrategia es buscar preguntas de investigación que sean importantes o interesantes (o idealmente ambas). Ambos términos son un poco difíciles de definir, pero una forma de pensar en investigaciones importantes es que tiene algún impacto mensurable o se alimenta de una decisión importante de los responsables de las políticas. Por ejemplo, medir la tasa de desempleo es importante porque es un indicador de la economía que impulsa las decisiones de política. En general, creo que los investigadores tienen un buen sentido de lo que es importante. Entonces, en el resto de esta sección, voy a brindar dos ejemplos en los que creo que contar es interesante. En cada caso, los investigadores no contaban al azar; más bien, contaban en contextos muy particulares que revelaban ideas importantes sobre ideas más generales sobre cómo funcionan los sistemas sociales. En otras palabras, mucho de lo que hace que estos ejercicios particulares de conteo sean interesantes no son los datos en sí, sino que provienen de estas ideas más generales.

Un ejemplo del simple poder de contar proviene del estudio de Henry Farber (2015) sobre el comportamiento de los taxistas de la ciudad de Nueva York. Aunque este grupo podría no parecer intrínsecamente interesante, es un sitio de investigación estratégica para probar dos teorías rivales en economía laboral. A los fines de la investigación de Farber, existen dos características importantes sobre el entorno de trabajo de los taxistas: (1) su salario por hora fluctúa día a día, basado en parte en factores como el clima y (2) el número de horas que el trabajo puede fluctuar cada día según sus decisiones. Estas características conducen a una pregunta interesante sobre la relación entre los salarios por hora y las horas trabajadas. Los modelos neoclásicos en economía predicen que los taxistas trabajarán más en los días en que tienen salarios por hora más altos. Alternativamente, los modelos de la economía del comportamiento predicen exactamente lo contrario. Si los conductores establecen un objetivo de ingresos en particular, digamos $ 100 por día, y trabajan hasta que se cumpla ese objetivo, los conductores terminarán trabajando menos horas los días en que están ganando más. Por ejemplo, si fuera un destinatario objetivo, podría terminar trabajando cuatro horas en un buen día ($ 25 por hora) y cinco horas en un mal día ($ 20 por hora). Entonces, ¿los conductores trabajan más horas en días con salarios por hora más altos (según lo predicho por los modelos neoclásicos) o más horas en días con salarios por hora más bajos (según lo predicho por los modelos económicos de comportamiento)?

Para responder a esta pregunta, Farber obtuvo datos de cada viaje en taxi realizado por los taxis de la ciudad de Nueva York de 2009 a 2013, datos que ahora están a disposición del público. Estos datos, que fueron recolectados por medidores electrónicos que la ciudad requiere que los taxis usen, incluyen información sobre cada viaje: hora de inicio, ubicación de inicio, hora de finalización, ubicación final, tarifa y propina (si el monto fue pagado con tarjeta de crédito) . Utilizando los datos de este medidor de taxi, Farber descubrió que la mayoría de los conductores trabajan más en los días en que los salarios son más altos, de acuerdo con la teoría neoclásica.

Además de este hallazgo principal, Farber pudo usar el tamaño de los datos para una mejor comprensión de la heterogeneidad y la dinámica. Descubrió que, con el tiempo, los conductores más nuevos gradualmente aprenden a trabajar más horas en días con salarios altos (por ejemplo, aprenden a comportarse como predice el modelo neoclásico). Y es más probable que los nuevos conductores que se comportan más como ganadores objetivo dejen de ser taxistas. Estos dos hallazgos más sutiles, que ayudan a explicar el comportamiento observado de los controladores actuales, solo fueron posibles debido al tamaño del conjunto de datos. Fueron imposibles de detectar en estudios anteriores que utilizaron hojas de viaje en papel de un pequeño número de taxistas en un corto período de tiempo (Camerer et al. 1997) .

El estudio de Farber estuvo cerca del mejor de los escenarios para una investigación que utilizaba una gran fuente de datos porque los datos recopilados por la ciudad eran bastante parecidos a los datos que Farber habría recopilado (una diferencia es que Farber habría deseado datos sobre total tarifas de salarios más propinas, pero los datos de la ciudad solo incluyen propinas pagadas con tarjeta de crédito). Sin embargo, los datos solos no fueron suficientes. La clave de la investigación de Farber era plantear una pregunta interesante a los datos, una pregunta que tiene implicaciones más amplias más allá de este entorno específico.

Un segundo ejemplo de contar cosas proviene de la investigación de Gary King, Jennifer Pan y Molly Roberts (2013) sobre la censura en línea del gobierno chino. En este caso, sin embargo, los investigadores tuvieron que recolectar sus propios big data y tuvieron que lidiar con el hecho de que sus datos estaban incompletos.

King y sus colegas estaban motivados por el hecho de que los puestos de las redes sociales en China son censurados por un enorme aparato estatal que se cree que incluye a decenas de miles de personas. Los investigadores y los ciudadanos, sin embargo, tienen poco sentido de cómo estos censores deciden qué contenido debe eliminarse. Los académicos de China en realidad tienen expectativas contradictorias sobre qué tipo de publicaciones tienen más probabilidades de eliminarse. Algunos piensan que los censores se enfocan en publicaciones que son críticas del estado, mientras que otros piensan que se enfocan en publicaciones que fomentan el comportamiento colectivo, como las protestas. Determinar cuál de estas expectativas es la correcta tiene implicaciones sobre cómo los investigadores entienden China y otros gobiernos autoritarios que participan en la censura. Por lo tanto, King y sus colegas querían comparar las publicaciones que se publicaron y posteriormente se eliminaron con las publicaciones que se publicaron y nunca se eliminaron.

La recolección de estos mensajes implicó la increíble obra de ingeniería de rastreo más de 1.000 sitios web -cada chinos los medios de comunicación social con diferentes diseños de página de búsqueda de mensajes relevantes, y luego volver a visitar estos mensajes para ver que se elimina posteriormente. Además de los problemas de ingeniería normales asociados a gran escala web de rastreo, este proyecto tenía el reto añadido de que tenía que ser muy rápido porque muchos mensajes censurados se toman en menos de 24 horas. En otras palabras, un rastreador lenta se perdería una gran cantidad de mensajes que fueron censuradas. Además, los rastreadores tuvieron que hacer todo esto mientras que la recolección de datos evadir la detección no sea que los sitios web de medios sociales bloquean el acceso o de otra manera cambiar sus políticas en respuesta al estudio.

En el momento en que se completó esta enorme tarea de ingeniería, King y sus colegas obtuvieron alrededor de 11 millones de mensajes en 85 diferentes temas preespecificados, cada uno con un supuesto nivel de sensibilidad. Por ejemplo, un tema de alta sensibilidad es Ai Weiwei, el artista disidente; un tema de sensibilidad media es el aprecio y la devaluación de la moneda china, y un tema de baja sensibilidad es la Copa del Mundo. De estos 11 millones de publicaciones, alrededor de 2 millones fueron censurados. Sorprendentemente, King y sus colegas descubrieron que las publicaciones sobre temas muy delicados se censuraban solo un poco más que las publicaciones sobre temas de mediana y baja sensibilidad. En otras palabras, es probable que los censores chinos censuren un post que menciona a Ai Weiwei como un post que menciona la Copa del Mundo. Estos hallazgos no respaldan la idea de que el gobierno censure todas las publicaciones sobre temas delicados.

Sin embargo, este simple cálculo de la tasa de censura por tema podría ser engañoso. Por ejemplo, el gobierno puede censurar puestos que apoyan a Ai Weiwei, pero deja los puestos que son críticos con él. Con el fin de distinguir entre las publicaciones más cuidadosamente, los investigadores necesitaban medir el sentimiento de cada publicación. Desafortunadamente, a pesar de mucho trabajo, los métodos completamente automatizados de detección de sentimientos utilizando diccionarios preexistentes todavía no son muy buenos en muchas situaciones (piense en los problemas que crean una línea de tiempo emocional del 11 de septiembre de 2001 descrita en la sección 2.3.9). Por lo tanto, King y sus colegas necesitaban una forma de etiquetar sus 11 millones de publicaciones en las redes sociales sobre si eran (1) críticos con el estado, (2) con apoyo del estado o (3) informes irrelevantes o fácticos sobre los eventos. Esto suena como un trabajo masivo, pero lo resolvieron usando un poderoso truco que es común en la ciencia de datos pero relativamente raro en las ciencias sociales: aprendizaje supervisado ; ver la figura 2.5.

Primero, en un paso típicamente llamado preprocesamiento , los investigadores convirtieron las publicaciones en redes sociales en una matriz de documento y término , donde había una fila para cada documento y una columna que registraba si el mensaje contenía una palabra específica (por ejemplo, protesta o tráfico) . A continuación, un grupo de asistentes de investigación etiquetó a mano el sentimiento de una muestra de publicaciones. Luego, utilizaron estos datos etiquetados a mano para crear un modelo de aprendizaje automático que podría inferir el sentimiento de una publicación en función de sus características. Finalmente, usaron este modelo para estimar el sentimiento de los 11 millones de publicaciones.

Por lo tanto, en lugar de leer y rotular manualmente 11 millones de publicaciones, lo que sería logísticamente imposible, King y sus colegas etiquetaron manualmente una pequeña cantidad de publicaciones y luego usaron el aprendizaje supervisado para estimar el sentimiento de todas las publicaciones. Después de completar este análisis, pudieron concluir que, algo sorprendente, la probabilidad de que una publicación se eliminara no estaba relacionada con si era crítica del estado o de apoyo del estado.

Figura 2.5: Esquema simplificado del procedimiento utilizado por King, Pan y Roberts (2013) para estimar el sentimiento de 11 millones de publicaciones en redes sociales chinas. En primer lugar, en un paso de preprocesamiento, los investigadores convirtieron las publicaciones de las redes sociales en una matriz de documento y plazo (ver Grimmer y Stewart (2013) para más información). En segundo lugar, codificaron a mano los sentimientos de una pequeña muestra de publicaciones. En tercer lugar, entrenaron un modelo de aprendizaje supervisado para clasificar el sentimiento de los mensajes. En cuarto lugar, utilizaron el modelo de aprendizaje supervisado para estimar el sentimiento de todas las publicaciones. Ver King, Pan y Roberts (2013), apéndice B para una descripción más detallada.

Figura 2.5: Esquema simplificado del procedimiento utilizado por King, Pan, and Roberts (2013) para estimar el sentimiento de 11 millones de publicaciones en redes sociales chinas. En primer lugar, en un paso de preprocesamiento , los investigadores convirtieron las publicaciones de las redes sociales en una matriz de documento y plazo (ver Grimmer and Stewart (2013) para más información). En segundo lugar, codificaron a mano los sentimientos de una pequeña muestra de publicaciones. En tercer lugar, entrenaron un modelo de aprendizaje supervisado para clasificar el sentimiento de los mensajes. En cuarto lugar, utilizaron el modelo de aprendizaje supervisado para estimar el sentimiento de todas las publicaciones. Ver King, Pan, and Roberts (2013) , apéndice B para una descripción más detallada.

Al final, King y sus colegas descubrieron que solo tres tipos de mensajes fueron censurados regularmente: pornografía, críticas a los censores y aquellos que tenían potencial de acción colectiva (es decir, la posibilidad de provocar protestas a gran escala). Al observar una gran cantidad de publicaciones borradas y publicaciones que no se eliminaron, King y sus colegas pudieron conocer cómo funcionan los censores simplemente observando y contando. Además, presagiando un tema que ocurrirá a lo largo de este libro, el enfoque de aprendizaje supervisado que usaron -etiquetar a mano algunos resultados y luego construir un modelo de aprendizaje automático para etiquetar el resto- resulta ser muy común en la investigación social en la era digital . Verá imágenes muy similares a la figura 2.5 en los capítulos 3 (Hacer preguntas) y 5 (Crear colaboración masiva); esta es una de las pocas ideas que aparece en varios capítulos.

Estos ejemplos -el comportamiento laboral de los taxistas en Nueva York y el comportamiento de censura de las redes sociales del gobierno chino- muestran que el conteo relativamente simple de las fuentes de big data puede, en algunas situaciones, llevar a investigaciones interesantes e importantes. En ambos casos, sin embargo, los investigadores tuvieron que traer preguntas interesantes a la fuente de big data; los datos en sí mismos no fueron suficientes.