2.4.1 coses Counting

Recompte simple pot ser interessant si es combina una bona pregunta amb bones dades.

Tot i que es basa en un llenguatge de so sofisticat, molta investigació social és realment explicant coses. A l'edat de grans dades, els investigadors poden comptar més que mai, però això no vol dir que hagi de començar a comptar sense parar. En lloc d'això, els investigadors haurien de preguntar: què val la pena comptar? Això pot semblar una qüestió totalment subjectiva, però hi ha alguns patrons generals.

Sovint, els estudiants motiven la seva recompte d'investigacions dient: vaig a explicar alguna cosa que mai ningú ha comptat abans. Per exemple, un estudiant podria dir que moltes persones han estudiat migrants i molta gent ha estudiat bessons, però ningú ha estudiat bessons migrants. En la meva experiència, aquesta estratègia, que jo anomeno motivació per absència , no sol portar a una bona investigació. La motivació per absència és com dir que hi ha un forat, i vaig a treballar moltíssim per omplir-lo. Però no cal omplir tots els forats.

En lloc de motivar per absència, crec que una estratègia millor és buscar preguntes de recerca que siguin importants o interessants (o idealment les dues). Tots dos termes són una mica difícils de definir, però una manera de pensar en una investigació important és que té un impacte mesurable o s'alimenta d'una decisió important dels responsables polítics. Per exemple, mesurar la taxa d'atur és important perquè és un indicador de l'economia que impulsa decisions de política. En general, crec que els investigadors tenen un bon sentit del que és important. Per tant, en la resta d'aquesta secció, vaig a proporcionar dos exemples on crec que comptar és interessant. En cada cas, els investigadors no estaven explicant de forma incessant; en comptes d'això, es comptaven en entorns molt particulars que revelaven idees importants sobre idees més generals sobre com funcionen els sistemes socials. En altres paraules, una gran part del que fa que aquests exercicis particulars de comptes siguin interessants no són les mateixes dades, prové d'aquestes idees més generals.

Un exemple del simple poder de comptar prové de l'estudi de Henry Farber (2015) sobre el comportament dels taxistes de la ciutat de Nova York. Tot i que aquest grup pot no semblar intrínsecament interessant, és un lloc estratègic de recerca per provar dues teories competidores en economia laboral. Per als propòsits de la investigació de Farber, hi ha dues característiques importants sobre l'entorn laboral dels taxistes: (1) el seu salari per hora fluctua dia a dia, basat en part en factors com el clima, i (2) el nombre d'hores que fan el treball pot fluctuar cada dia segons les seves decisions. Aquestes característiques generen una pregunta interessant sobre la relació entre els salaris horaris i les hores treballades. Els models neoclàssics en economia prediuen que els taxistes treballaran més en dies on tenen salaris més alts. Alternativament, els models d'economia conductual preveuen exactament el contrari. Si els conductors fixen un objectiu de renda particular (per exemple, $ 100 per dia) i funcionen fins que es compleixi aquest objectiu, els conductors acabaran treballant menys hores en dies que guanyen més. Per exemple, si fos un destinatari, podria acabar treballant quatre hores en un bon dia ($ 25 per hora) i cinc hores en un dia dolent ($ 20 per hora). Per tant, els conductors treballen més hores en dies amb salaris més alts (tal com preveuen els models neoclàssics) o més hores en dies amb menors salaris per hores (tal com preveuen els models econòmics conductuals)?

Per respondre a aquesta pregunta, Farber va obtenir dades sobre cada viatge de taxi preses per les cabines de Nova York de 2009 a 2013, dades que ara estan disponibles públicament. Aquestes dades, que es van recollir per mitjà de comptadors electrònics que la ciutat necessita per utilitzar els taxis, inclouen informació sobre cada viatge: hora d'inici, ubicació d'inici, hora de finalització, ubicació final, tarifa i propina (si es va pagar amb targeta de crèdit) . Mitjançant aquestes dades dels taxis, Farber va trobar que la majoria dels conductors treballen més en dies en què els salaris són més alts, d'acord amb la teoria neoclàssica.

A més d'aquesta troballa principal, Farber va poder utilitzar la mida de les dades per a una millor comprensió de l'heterogeneïtat i la dinàmica. Va trobar que, amb el temps, els conductors més recents aprenen gradualment a treballar més hores en jornades d'alt salari (per exemple, aprenen a comportar-se com prediu el model neoclàssic). I els nous conductors que es comporten més com a destinataris són més propensos a deixar de ser taxistes. Aquests dos resultats més subtils, que ajuden a explicar el comportament observat dels controladors actuals, només van ser possibles a causa de la mida del conjunt de dades. Van ser impossibles de detectar en estudis anteriors que van utilitzar fulls de paper per part d'un petit nombre de taxistes durant un breu període de temps (Camerer et al. 1997) .

L'estudi de Farber va estar a prop d'un cas millor per a una investigació que utilitzava una gran font de dades perquè les dades recollides per la ciutat estaven molt a prop de les dades que Farber hauria recopilat (una diferència és que Farber hauria volgut dades sobre el total tarifes salarials més consells, però les dades de la ciutat només inclouen consells pagats amb targeta de crèdit). Tanmateix, les dades no eren suficients. La clau de la investigació de Farber va ser una pregunta interessant a les dades, una qüestió que té implicacions més grans més enllà d'aquest entorn específic.

Un segon exemple de comptar les coses prové de la investigació de Gary King, Jennifer Pan i Molly Roberts (2013) sobre la censura en línia del govern xinès. En aquest cas, però, els investigadors havien de recollir les seves grans dades i havien de fer front al fet que les dades eren incompletes.

King i els seus col·legues van estar motivats pel fet que els mitjans de comunicació social a Xina es censuren per un enorme aparell estatal que es creu que inclouen desenes de milers de persones. Tanmateix, els investigadors i els ciutadans tenen poc sentit de com aquests censors decideixen el contingut que s'hauria d'eliminar. Els estudiosos de la Xina en realitat tenen expectatives conflictius sobre quins tipus de publicacions són més probable que s'eliminin. Alguns pensen que els censors se centren en missatges que són crítics de l'estat, mentre que altres pensen que se centren en missatges que fomenten el comportament col·lectiu, com ara protestes. Detectar quines d'aquestes expectatives són correctes té conseqüències sobre com els investigadors comprenen la Xina i altres governs autoritaris que es dediquen a la censura. Per tant, King i col·legues volien comparar les publicacions publicades i, posteriorment, esborrar amb publicacions publicades i mai eliminades.

La recol·lecció d'aquests missatges va implicar la increïble obra d'enginyeria de rastreig més de 1.000 llocs web -cada xinesos els mitjans de comunicació social amb diferents dissenys de pàgina de cerca de missatges rellevants, i després tornar a visitar aquests missatges per veure que s'elimina posteriorment. A més dels problemes d'enginyeria normals associats a gran escala web de rastreig, aquest projecte tenia el repte afegit de que havia de ser molt ràpid perquè molts missatges censurats es prenen en menys de 24 hores. En altres paraules, un rastrejador lenta es perdria una gran quantitat de missatges que van ser censurades. A més, els rastrejadors van haver de fer tot això mentre que la recol·lecció de dades evadir la detecció no sigui que els llocs web de mitjans socials bloquegen l'accés o d'una altra manera canviar les seves polítiques en resposta a l'estudi.

En el moment en què aquesta tasca d'enginyeria massiva s'havia completat, King i col·legues havien obtingut prop de 11 milions de publicacions en 85 temes diferents prespecificats, cadascun amb un nivell de sensibilitat assumit. Per exemple, un tema d'alta sensibilitat és Ai Weiwei, l'artista dissident; un tema de sensibilitat mitjana és l'apreciació i la devaluació de la moneda xinesa, i un tema de baixa sensibilitat és la Copa del Món. D'aquests 11 milions d'enviaments, s'han censurat prop de 2 milions. De manera sorprenent, King i els seus col · legues van trobar que les publicacions sobre temes molt sensibles només es van censurar una mica més sovint que publicacions sobre temes de baixa i mitjana sensibilitat. En altres paraules, els censors xinesos tenen la probabilitat d'censurar una publicació que esmenta Ai Weiwei com a publicació que esmenta la Copa del Món. Aquestes troballes no recolzen la idea que el govern censura totes les publicacions sobre temes sensibles.

Tanmateix, aquest simple càlcul de la taxa de censura per tema podria ser enganyós. Per exemple, el govern pot censurar missatges que donen suport a Ai Weiwei, però deixen publicacions que són crítiques per ell. Per distingir entre les publicacions més atentament, els investigadors necessitaven mesurar el sentiment de cada publicació. Malauradament, malgrat molt de treball, els mètodes totalment automatitzats de detecció de sentiment utilitzant diccionaris preexistents encara no són molt bons en moltes situacions (pensi en els problemes que generen una cronologia emocional de l'11 de setembre de 2001 descrita a la secció 2.3.9). Per tant, King i els seus col·legues necessitaven una manera d'etiquetar els seus 11 milions de missatges publicitaris sobre si eren (1) crítics de l'estat, (2) de suport de l'estat, o (3) informes irrellevants o fets sobre els esdeveniments. Sembla una tasca massiva, però la van solucionar utilitzant un potent truc que és comú en les ciències de la informació, però relativament poc freqüent en les ciències socials: l' aprenentatge supervisat ; vegeu la figura 2.5.

En primer lloc, en un pas que generalment es denominava preprocessament , els investigadors van convertir les publicacions de les xarxes socials en una matriu de documents , on hi havia una fila per a cada document i una columna que registrava si la publicació contenia una paraula específica (per exemple, protesta o trànsit) . A continuació, un grup d'assistents de recerca va etiquetar a mà el sentiment d'una mostra de publicacions. A continuació, van utilitzar aquestes dades etiquetades a mà per crear un model d'aprenentatge automàtic que podria inferir el sentiment d'una publicació en funció de les seves característiques. Finalment, van utilitzar aquest model per estimar el sentiment dels 11 milions de publicacions.

Així, en lloc de llegir i etiquetar manualment 11 milions de missatges -que seria logísticament impossible- King i col·legues van etiquetar manualment una petita quantitat de publicacions i després van utilitzar l'aprenentatge supervisat per estimar el sentiment de totes les publicacions. Després de completar aquesta anàlisi, es va poder concloure que, una mica sorprenent, la probabilitat que es eliminés una publicació no tingués relació amb si era crític amb l'estat o el suport de l'estat.

Figura 2.5: Esquema simplificat del procediment utilitzat per King, Pan i Roberts (2013) per estimar el sentiment d'11 milions de publicacions de mitjans de comunicació xineses. En primer lloc, en un pas de preprocessament, els investigadors van convertir les publicacions de les xarxes socials en una matriu de documents (vegeu Grimmer i Stewart (2013) per obtenir més informació). En segon lloc, codificaron manualment els sentiments d'una petita mostra de publicacions. En tercer lloc, van entrenar un model d'aprenentatge supervisat per classificar el sentiment de publicacions. En quart lloc, van utilitzar el model d'aprenentatge supervisat per estimar el sentiment de totes les publicacions. Vegeu King, Pan i Roberts (2013), apèndix B per obtenir una descripció més detallada.

Figura 2.5: Esquema simplificat del procediment utilitzat per King, Pan, and Roberts (2013) per estimar el sentiment d'11 milions de publicacions de mitjans de comunicació xineses. En primer lloc, en un pas de preprocessament , els investigadors van convertir les publicacions de les xarxes socials en una matriu de documents (vegeu Grimmer and Stewart (2013) per obtenir més informació). En segon lloc, codificaron manualment els sentiments d'una petita mostra de publicacions. En tercer lloc, van entrenar un model d'aprenentatge supervisat per classificar el sentiment de publicacions. En quart lloc, van utilitzar el model d'aprenentatge supervisat per estimar el sentiment de totes les publicacions. Vegeu King, Pan, and Roberts (2013) , apèndix B per obtenir una descripció més detallada.

Al final, King i els seus col·legues van descobrir que només es van censurar tres tipus de publicacions: la pornografia, la crítica dels censors i els que tenien un potencial d'acció col·lectiva (és a dir, la possibilitat de provocar protestes a gran escala). En observar un gran nombre de publicacions que es van eliminar i publicacions que no es van eliminar, King i col·legues van poder saber com funcionen els censors amb només mirar i comptar. A més, prefigurant un tema que es donarà al llarg d'aquest llibre, l'enfocament d'aprenentatge supervisat que utilitzaven, etiquetant alguns resultats i després la construcció d'un model d'aprenentatge automàtic per etiquetar la resta, resulta molt comú en la recerca social en l'era digital . Veureu imatges molt similars a la figura 2.5 als capítols 3 (Preguntes) i 5 (Creació de la col · laboració massiva); aquesta és una de les poques idees que apareixen en diversos capítols.

Aquests exemples -el comportament laboral dels taxistes a Nova York i el comportament de la censura de mitjans socials del govern xinès- mostren que el recompte relativament senzill de grans fonts de dades pot conduir, en algunes situacions, a una recerca interessant i important. En ambdós casos, però, els investigadors van haver de fer preguntes interessants a la gran font de dades; les dades per si soles no van ser suficients.