2.3.1 Grande

Grandes conjuntos de datos son un medio para un fin; no son un fin en sí mismos.

La característica más discutida de las fuentes de big data es que son GRANDES. Muchos artículos, por ejemplo, comienzan discutiendo, ya veces alardeando, sobre la cantidad de datos que analizan. Por ejemplo, un artículo publicado en Science que estudia las tendencias del uso de las palabras en el corpus de Google Books incluía lo siguiente (Michel et al. 2011) :

"[Nuestro] corpus contiene más de 500 mil millones de palabras, en inglés (361 mil millones), francés (45 mil millones), español (45 mil millones), alemán (37 mil millones), chino (13 mil millones), ruso (35 mil millones) y hebreo (2 billones). Las obras más antiguas se publicaron en el siglo XVI. Las primeras décadas están representadas por solo unos pocos libros por año, que comprenden varios cientos de miles de palabras. Para 1800, el corpus crece a 98 millones de palabras por año; para 1900, 1.8 mil millones; y en 2000, 11 mil millones. El corpus no puede ser leído por un humano. Si intentara leer únicamente las entradas en inglés del año 2000, a un ritmo razonable de 200 palabras / min, sin interrupciones para la comida o el sueño, tomaría 80 años. La secuencia de letras es 1000 veces más larga que el genoma humano: si la escribes en línea recta, llegaría a la Luna y retrocedería 10 veces ".

La escala de estos datos es indudablemente impresionante, y todos somos afortunados de que el equipo de Google Books haya lanzado estos datos al público (de hecho, algunas de las actividades al final de este capítulo hacen uso de estos datos). Pero, cada vez que veas algo como esto, deberías preguntarte: ¿es que todos esos datos realmente están haciendo algo? ¿Podrían haber hecho la misma investigación si los datos pudieran llegar a la Luna y solo una vez? ¿Qué pasa si los datos solo pueden llegar a la cima del Monte Everest o la parte superior de la Torre Eiffel?

En este caso, su investigación tiene, de hecho, algunos hallazgos que requieren un gran corpus de palabras durante un largo período de tiempo. Por ejemplo, una cosa que exploran es la evolución de la gramática, particularmente los cambios en la tasa de conjugación verbal irregular. Como algunos verbos irregulares son bastante raros, se necesita una gran cantidad de datos para detectar cambios a lo largo del tiempo. Con demasiada frecuencia, sin embargo, los investigadores parecen tratar el tamaño de la fuente de big data como un final: "miren cuántos datos puedo analizar", en lugar de un medio para alcanzar un objetivo científico más importante.

En mi experiencia, el estudio de eventos raros es uno de los tres fines científicos específicos que los grandes conjuntos de datos tienden a permitir. El segundo es el estudio de la heterogeneidad, como puede ilustrarse en un estudio de Raj Chetty y colegas (2014) sobre la movilidad social en los Estados Unidos. En el pasado, muchos investigadores han estudiado la movilidad social al comparar los resultados de vida de padres e hijos. Un hallazgo consistente de esta literatura es que los padres aventajados tienden a tener hijos aventajados, pero la fuerza de esta relación varía con el tiempo y entre países (Hout and DiPrete 2006) . Más recientemente, sin embargo, Chetty y sus colegas pudieron usar los registros impositivos de 40 millones de personas para estimar la heterogeneidad en la movilidad intergeneracional entre las regiones de los Estados Unidos (figura 2.1). Descubrieron, por ejemplo, que la probabilidad de que un niño llegue al quintil superior de la distribución del ingreso nacional a partir de una familia en el quintil inferior es de aproximadamente 13% en San José, California, pero solo alrededor de 4% en Charlotte, Carolina del Norte. Si observa la figura 2.1 por un momento, puede comenzar a preguntarse por qué la movilidad intergeneracional es más alta en algunos lugares que en otros. Chetty y sus colegas tenían exactamente la misma pregunta, y encontraron que las áreas de alta movilidad tienen menos segregación residencial, menos desigualdad de ingresos, mejores escuelas primarias, mayor capital social y una mayor estabilidad familiar. Por supuesto, estas correlaciones por sí solas no muestran que estos factores causen mayor movilidad, pero sí sugieren posibles mecanismos que se pueden explorar en trabajos posteriores, que es exactamente lo que Chetty y sus colegas han hecho en trabajos posteriores. Observe cómo el tamaño de los datos fue realmente importante en este proyecto. Si Chetty y sus colegas hubiesen utilizado los registros impositivos de 40 mil personas en lugar de 40 millones, no habrían podido estimar la heterogeneidad regional y nunca habrían podido realizar investigaciones posteriores para tratar de identificar los mecanismos que crean esta variación.

Figura 2.1: Estimaciones de las posibilidades de un niño de alcanzar el 20% superior de la distribución del ingreso, dado que los padres están en el 20% inferior (Chetty et al., 2014). Las estimaciones a nivel regional, que muestran heterogeneidad, naturalmente conducen a preguntas interesantes e importantes que no surgen de una única estimación a nivel nacional. Estas estimaciones a nivel regional fueron posibles en parte porque los investigadores estaban usando una gran fuente de datos grandes: los registros impositivos de 40 millones de personas. Creado a partir de los datos disponibles en http://www.equality-of-opportunity.org/.

Figura 2.1: Estimaciones de las posibilidades de un niño de alcanzar el 20% superior de la distribución del ingreso, dado que los padres están en el 20% inferior (Chetty et al. 2014) . Las estimaciones a nivel regional, que muestran heterogeneidad, naturalmente conducen a preguntas interesantes e importantes que no surgen de una única estimación a nivel nacional. Estas estimaciones a nivel regional fueron posibles en parte porque los investigadores estaban usando una gran fuente de datos grandes: los registros impositivos de 40 millones de personas. Creado a partir de los datos disponibles en http://www.equality-of-opportunity.org/.

Finalmente, además de estudiar eventos raros y estudiar la heterogeneidad, los grandes conjuntos de datos también permiten a los investigadores detectar pequeñas diferencias. De hecho, gran parte del enfoque en big data en la industria se trata de estas pequeñas diferencias: la detección confiable de la diferencia entre un 1% y un 1,1% de clics en un anuncio puede traducirse en millones de dólares en ingresos adicionales. Sin embargo, en algunos contextos científicos, tales pequeñas diferencias pueden no ser particularmente importantes, incluso si son estadísticamente significativas (Prentice and Miller 1992) . Pero, en algunas configuraciones de políticas, pueden volverse importantes cuando se ven en conjunto. Por ejemplo, si hay dos intervenciones de salud pública y una es ligeramente más efectiva que la otra, elegir la intervención más efectiva podría terminar salvando miles de vidas adicionales.

Aunque el tamaño suele ser una buena propiedad cuando se usa correctamente, me he dado cuenta de que a veces puede conducir a un error conceptual. Por alguna razón, la grandeza parece llevar a los investigadores a ignorar cómo se generaron sus datos. Si bien el tamaño reduce la necesidad de preocuparse por el error aleatorio, en realidad aumenta la necesidad de preocuparse por los errores sistemáticos, los tipos de errores que describiré a continuación que surgen de los sesgos en la forma en que se crean los datos. Por ejemplo, en un proyecto que describiré más adelante en este capítulo, los investigadores usaron mensajes generados el 11 de septiembre de 2001 para producir una línea de tiempo emotiva de alta resolución de la reacción al ataque terrorista (Back, Küfner, and Egloff 2010) . Debido a que los investigadores tenían una gran cantidad de mensajes, en realidad no tenían que preocuparse de si los patrones que observaban -aumentando la ira a lo largo del día- podían explicarse por variación aleatoria. Había tantos datos y el patrón era tan claro que todas las pruebas estadísticas estadísticas sugerían que este era un patrón real. Pero estas pruebas estadísticas ignoraban cómo se crearon los datos. De hecho, resultó que muchos de los patrones eran atribuibles a un solo bot que generaba más y más mensajes sin sentido a lo largo del día. La eliminación de este robot destruyó por completo algunos de los hallazgos clave del documento (Pury 2011; Back, Küfner, and Egloff 2011) . En pocas palabras, los investigadores que no piensan en errores sistemáticos se enfrentan al riesgo de utilizar sus grandes conjuntos de datos para obtener una estimación precisa de una cantidad sin importancia, como el contenido emocional de los mensajes sin sentido producidos por un robot automatizado.

En conclusión, los grandes conjuntos de datos no son un fin en sí mismos, pero pueden permitir ciertos tipos de investigación, incluido el estudio de eventos raros, la estimación de la heterogeneidad y la detección de pequeñas diferencias. Los grandes conjuntos de datos también parecen llevar a algunos investigadores a ignorar cómo se crearon sus datos, lo que puede llevarlos a obtener una estimación precisa de una cantidad sin importancia.