2.3.4 Incompleto

No importa cuán grande sea su gran cantidad de datos, probablemente no tenga la información que desea.

La mayoría de las fuentes de datos grandes son incompletas , en el sentido de que no tienen la información que usted querrá para su investigación. Esta es una característica común de los datos que se crearon para fines distintos de la investigación. Muchos científicos sociales ya han tenido la experiencia de lidiar con lo incompleto, como una encuesta existente que no hizo la pregunta que se necesitaba. Desafortunadamente, los problemas de incompletud tienden a ser más extremos en big data. En mi experiencia, los macrodatos suelen carecer de tres tipos de información útil para la investigación social: información demográfica sobre los participantes, comportamiento en otras plataformas y datos para operacionalizar constructos teóricos.

De los tres tipos de incompletitud, el problema de los datos incompletos para operacionalizar constructos teóricos es el más difícil de resolver. Y en mi experiencia, a menudo se pasa por alto accidentalmente. A grandes rasgos, las construcciones teóricas son ideas abstractas que los científicos sociales estudian y poner en funcionamiento una construcción teórica significa proponer una manera de capturar esa construcción con los datos observables. Desafortunadamente, este proceso de sonido simple a menudo resulta ser bastante difícil. Por ejemplo, imaginemos tratar de probar empíricamente la afirmación aparentemente simple de que las personas que son más inteligentes ganan más dinero. Para probar esta afirmación, necesitarías medir la "inteligencia". Pero, ¿qué es la inteligencia? Gardner (2011) argumentó que en realidad hay ocho formas diferentes de inteligencia. ¿Y hay procedimientos que puedan medir con precisión cualquiera de estas formas de inteligencia? A pesar de las enormes cantidades de trabajo de los psicólogos, estas preguntas todavía no tienen respuestas inequívocas.

Por lo tanto, incluso un reclamo relativamente simple -gente que es más inteligente gana más dinero- puede ser difícil de evaluar empíricamente porque puede ser difícil poner en práctica construcciones teóricas en datos. Otros ejemplos de constructos teóricos que son importantes pero difíciles de llevar a la práctica incluyen "normas", "capital social" y "democracia". Los científicos sociales denominan el partido entre constructos teóricos y validez de constructo de datos (Cronbach and Meehl 1955) . Como sugiere esta breve lista de constructos, la validez de constructo es un problema con el que los científicos sociales han luchado durante mucho tiempo. Pero en mi experiencia, los problemas de validez de constructo son aún mayores cuando se trabaja con datos que no se crearon con fines de investigación (Lazer 2015) .

Cuando evalúa un resultado de investigación, una forma rápida y útil de evaluar la validez de constructo es tomar el resultado, que generalmente se expresa en términos de construcciones, y volver a expresarlo en términos de los datos utilizados. Por ejemplo, considere dos estudios hipotéticos que afirman mostrar que las personas que son más inteligentes ganan más dinero. En el primer estudio, el investigador descubrió que las personas que obtienen buenos puntajes en la prueba de matrices progresivas de Raven -una prueba bien analizada de inteligencia analítica (Carpenter, Just, and Shell 1990) - tienen ingresos más altos en sus declaraciones de impuestos. En el segundo estudio, el investigador descubrió que las personas en Twitter que usan palabras más largas son más propensas a mencionar marcas de lujo. En ambos casos, estos investigadores podrían afirmar que han demostrado que las personas que son más inteligentes ganan más dinero. Sin embargo, en el primer estudio los constructos teóricos están bien operacionalizados por los datos, mientras que en el segundo no lo son. Además, como lo ilustra este ejemplo, más datos no resuelven automáticamente problemas con validez de constructo. Debe dudar de los resultados del segundo estudio si se trata de un millón de tweets, mil millones de tweets o un billón de tweets. Para los investigadores que no están familiarizados con la idea de validez de constructo, la tabla 2.2 proporciona algunos ejemplos de estudios que han operacionalizado construcciones teóricas utilizando datos de rastreo digital.

Tabla 2.2: ejemplos de huellas digitales que se utilizaron para operacionalizar construcciones teóricas
Fuente de datos Construcción teórica Referencias
Registros de correo electrónico de una universidad (solo metadatos) Relaciones sociales Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
Mensajes en redes sociales en Weibo Compromiso civil Zhang (2016)
Registros de correo electrónico de una empresa (metadatos y texto completo) Ajuste cultural en una organización Srivastava et al. (2017)

Aunque el problema de los datos incompletos para capturar construcciones teóricas es bastante difícil de resolver, existen soluciones comunes a los otros tipos comunes de incompletud: información demográfica incompleta e información incompleta sobre el comportamiento en otras plataformas. La primera solución es recopilar realmente los datos que necesita; Te contaré sobre eso en el capítulo 3 cuando te cuente sobre las encuestas. La segunda solución principal es hacer lo que los científicos de los datos llaman inferencia de atributo de usuario y los científicos sociales llaman imputación . En este enfoque, los investigadores usan la información que tienen sobre algunas personas para inferir atributos de otras personas. Una tercera solución posible es combinar múltiples fuentes de datos. Este proceso a veces se denomina enlace de registro . Mi metáfora favorita para este proceso fue escrita por Dunn (1946) en el primer párrafo del primer artículo que se haya escrito sobre vinculación de registros:

"Cada persona en el mundo crea un Libro de la Vida. Este libro comienza con el nacimiento y termina con la muerte. Sus páginas están compuestas de registros de los principales eventos de la vida. La vinculación de registros es el nombre dado al proceso de ensamblar las páginas de este libro en un volumen ".

Cuando Dunn escribió ese pasaje, estaba imaginando que el Libro de la Vida podría incluir acontecimientos importantes de la vida como el nacimiento, el matrimonio, el divorcio y la muerte. Sin embargo, ahora que se registra tanta información acerca de las personas, el Libro de la Vida podría ser un retrato increíblemente detallado, si esas páginas diferentes (es decir, nuestros rastros digitales) se pueden unir. Este libro de la vida podría ser un gran recurso para los investigadores. Pero también podría llamarse una base de datos de ruina (Ohm 2010) , que podría usarse para todo tipo de propósitos no éticos, como lo describiré en el capítulo 6 (Ética).