2.4.1 cousas Conta

Conta simple pode ser interesante se combinar unha boa pregunta con bos datos.

Aínda que está formado por unha linguaxe de son sofisticados, hai moitas investigacións sociais que só contan cousas. Na era de grandes datos, os investigadores poden contar máis que nunca, pero iso non significa que eles só deberían comezar a contar inactivo. En cambio, os investigadores deberían preguntar: ¿Cales son as cousas que vale a pena contar? Isto pode parecer unha cuestión completamente subjetiva, pero hai algúns patróns xerais.

Moitas veces, os alumnos motivan a súa investigación de contar dicindo: contarei algo que ninguén xa contou antes. Por exemplo, un estudante pode dicir que moitas persoas estudaron migrantes e moitas persoas estudaron xemelgos, pero ninguén estudou xemelgos migrantes. Na miña experiencia, esta estratexia, que eu chamo motivación por ausencia , non adoita levar a unha boa investigación. A motivación por ausencia é algo semellante a dicir que hai un buraco por aí, e vou traballar moi duro para encher. Pero non hai que cubrir todos os orificios.

En lugar de motivar por ausencia, creo que unha mellor estratexia é buscar cuestións de investigación que sexan importantes ou interesantes (ou idealmente as dúas). Ambos termos son un pouco difíciles de definir, pero unha forma de pensar sobre a investigación importante é que ten un impacto medible ou se alimenta dunha importante decisión dos responsables políticos. Por exemplo, medir a taxa de desemprego é importante porque é un indicador da economía que impulsa as decisións políticas. En xeral, creo que os investigadores teñen un bo sentido do importante. Entón, no resto desta sección, vou proporcionar dous exemplos onde creo que contar é interesante. En cada caso, os investigadores non estaban contando sen parar; máis ben, estaban contando en contextos moi particulares que revelaron ideas importantes sobre ideas máis xerais sobre como funcionan os sistemas sociais. Noutras palabras, unha gran parte do que fai que estes exercicios particulares de contaxe non sexan os propios datos, provén destas ideas máis xerais.

Un exemplo do simple poder de contar provén do estudo de Henry Farber (2015) sobre o comportamento dos condutores de taxi de Nova York. Aínda que este grupo non soe intrínsecamente interesante, é un sitio de investigación estratéxica para probar dúas teorías competentes na economía laboral. Para os fins da investigación de Farber, hai dúas características importantes sobre o ambiente de traballo dos condutores de taxi: (1) o seu salario por hora fluctúa día a día, baseado en parte en factores como o clima e (2) a cantidade de horas que teñen O traballo pode fluctuar cada día segundo as súas decisións. Estas características levan a unha interesante pregunta sobre a relación entre os salarios por hora e as horas traballadas. Os modelos neoclásicos en economía predicen que os condutores de taxi traballarán máis nos días en que teñan maiores salarios por hora. Alternativamente, os modelos da economía do comportamento predicen exactamente o contrario. Se os controladores fixan un obxectivo de renda particular, por exemplo $ 100 por día, e funcionan ata que se cumpre ese obxectivo, os condutores terminarán traballando menos horas en días que gañan máis. Por exemplo, se fose un destinatario, pode terminar traballando catro horas nun bo día ($ 25 por hora) e cinco horas nun día malo ($ 20 por hora). Entón, os condutores traballan máis horas en días con salarios por hora máis altos (como os modelos neoclásicos predichan) ou máis horas en días con salarios por hora máis baixos (como os modelos económicos de comportamento prevén)?

Para responder a esta pregunta, Farber obtivo datos de cada viaxe de taxi tomada polos taxis de Nova York desde 2009 a 2013, datos que agora están dispoñibles ao público. Estes datos, que foron recollidos por medidores electrónicos que a cidade precisa de taxis de uso, inclúen información sobre cada viaxe: a hora de inicio, a localización inicial, o tempo de finalización, a localización final, a tarifa e a punta (se o consello foi pagado cunha tarxeta de crédito) . Usando os datos deste taxista, Farber descubriu que a maioría dos condutores traballan máis nos días en que os salarios son máis altos, de acordo coa teoría neoclásica.

Ademais deste descubrimento principal, Farber foi capaz de utilizar o tamaño dos datos para comprender mellor a heteroxeneidade e dinámica. Descubriu que, co paso do tempo, os condutores máis recentes aprenden a aprender a traballar máis horas en días de alta remuneración (por exemplo, aprenden a comportarse como o modelo neoclásico predice). E os novos condutores que se comportan máis como destinatarios son máis propensos a deixar de ser taxistas. Ambos os resultados máis sutís, que axudan a explicar o comportamento observado dos controladores actuais, só foron posibles debido ao tamaño do conxunto de datos. Fomos imposibles de detectar en estudos anteriores que empregaban follas de papel de un pequeno número de taxistas durante un curto período de tempo (Camerer et al. 1997) .

O estudo de Farber estivo preto dun escenario mellor para unha investigación que usaba unha gran fonte de datos porque os datos recollidos pola cidade estaban moi preto dos datos que Farber recopilaría (unha diferenza é que Farber quería datos sobre o total as tarifas salariais máis consellos, pero os datos da cidade só inclúen consellos pagos con tarxeta de crédito). Non obstante, só os datos non eran suficientes. A clave para a investigación de Farber foi traer unha pregunta interesante aos datos, unha pregunta que ten maiores implicacións máis aló de só esta configuración específica.

Un segundo exemplo de contar as cousas provén da investigación realizada por Gary King, Jennifer Pan e Molly Roberts (2013) sobre censura en liña polo goberno chinés. Neste caso, con todo, os investigadores tiveron que recoller os seus datos grandes e tiveron que tratar co feito de que os seus datos estaban incompletos.

King e colegas estiveron motivados polo feito de que as mensaxes de redes sociais en China están censuradas por un enorme aparello estatal que se considera que inclúe decenas de miles de persoas. Non obstante, os investigadores e os cidadáns teñen pouco sentido de como estes censores deciden que contido debe ser eliminado. Os estudiosos de Chinesa teñen expectativas en conflito sobre os tipos de publicacións que son máis propensos a eliminar. Algúns pensan que os censores céntranse nas publicacións críticas do estado, mentres que outras pensan que se enfocan en publicacións que fomentan o comportamento colectivo, como as protestas. Determinar cal das expectativas son correctas ten consecuencias para o xeito no que os investigadores comprenden a China e outros gobernos autoritarios que se dedican á censura. Polo tanto, King e os seus colegas querían comparar publicacións que foron publicadas e posteriormente borradas con publicacións que foron publicadas e que nunca se eliminaron.

A obtención destes postos implica a fazaña de enxeñaría sorprendente de rastexaren máis de 1.000 chineses sitios, cada comunicación social con diferentes esquemas de páxina de clasificación de cargos relevantes, e logo volver estes lugares para ver que foron posteriormente eliminado. Ademais dos problemas normais de enxeñaría asociados con gran escala web-crawling, este proxecto tivo o reto adicional que precisaba ser moi rápido, porque moitas mensaxes censuradas son tomadas para abaixo en menos de 24 horas. Noutras palabras, un rastreador lento ía perder moitos artigos que foron censurados. Ademais, os rastexador tiña que facer todo isto de recollida de datos mentres está fuxindo de detección para que os sitios de comunicación social bloquear o acceso ou cambiar as súas políticas en resposta ao estudo.

No momento en que se completou esta tarefa de enxeñaría masiva, King e colegas obtiveron preto de 11 millóns de mensaxes en 85 temas diferentes prescritos, cada un cun nivel de sensibilidade asumido. Por exemplo, un tema de alta sensibilidade é Ai Weiwei, o artista disidente; un tema de sensibilidade media é a valoración e desvalorización da moeda chinesa, e un tema de baixa sensibilidade é o Mundial. Das 11 millóns de postos, case 2 millóns foron censurados. Sorprendentemente, King e os seus colegas descubriron que as mensaxes sobre temas altamente sensibles foron censuradas só un pouco máis a miúdo que publicacións sobre temas de baixa e baixa sensibilidade. Dito doutro xeito, os censores chineses teñen máis probabilidades de censurar unha publicación que menciona Ai Weiwei como unha publicación que menciona a Copa do Mundo. Estes resultados non soportan a idea de que o goberno censura todas as publicacións sobre temas delicados.

Este simple cálculo da taxa de censura por tema podería ser engañoso, porén. Por exemplo, o goberno pode censurar mensaxes que son compatibles con Ai Weiwei, pero deixan publicacións que son críticas. Para distinguir entre as publicacións con máis coidado, os investigadores necesitaban medir o sentimento de cada publicación. Desafortunadamente, a pesar de moito traballo, os métodos completamente automatizados de detección de sentimento usando dicionarios preexistentes aínda non son moi bos en moitas situacións (pense de novo nos problemas que crean unha cronoloxía emocional do 11 de setembro de 2001 descrita na sección 2.3.9). Polo tanto, King e compañeiros necesitaban un xeito de etiquetar os seus 11 millóns de mensaxes de redes sociais sobre se eran (1) críticas do estado, (2) de apoio ao estado, ou (3) informes irrelevantes ou feitos sobre os eventos. Isto soa como un traballo masivo, pero resolvérono usando un poderoso truco que é común nas ciencias da información pero relativamente pouco común nas ciencias sociais: aprendizaxe supervisada ; Vexa a figura 2.5.

En primeiro lugar, nun paso típicamente chamado de preprocesamento , os investigadores converteron as publicacións nos medios sociais nunha matriz de termos de documentos , onde había unha liña para cada documento e unha columna que rexistrou se a publicación contiña unha palabra específica (por exemplo, protesta ou tráfico) . A continuación, un grupo de asistentes de investigación marcou o sentimento dunha mostra de publicacións. Entón, usaron estes datos marcados a man para crear un modelo de aprendizaxe automático que podería inferir o sentimento dunha publicación en función das súas características. Finalmente, utilizaron este modelo para estimar o sentimento de todos os 11 millóns de publicacións.

Así, no canto de ler manualmente e etiquetar 11 millóns de artigos -que sería logísticamente imposible- King e colleagues etiquetaron manualmente un pequeno número de publicacións e logo utilizaron a aprendizaxe supervisada para estimar o sentimento de todas as publicacións. Despois de completar esta análise, puideron concluír que, de forma sorprendente, a probabilidade de que se eliminase unha publicación non estivese relacionada coa crítica do estado ou o apoio do estado.

Figura 2.5: Esquema simplificado do procedemento utilizado por King, Pan e Roberts (2013) para estimar o sentimento de 11 millóns de publicacións en redes sociais chinesas. En primeiro lugar, nun paso de preprocesamento, os investigadores converteron as publicacións de redes sociais nunha matriz de documentos (ver Grimmer e Stewart (2013) para obter máis información). En segundo lugar, codificaron manualmente os sentimentos dunha pequena mostra de publicacións. En terceiro lugar, formaron un modelo de aprendizaxe supervisado para clasificar o sentimento de publicacións. En cuarto lugar, utilizaron o modelo de aprendizaxe supervisado para estimar o sentimento de todas as publicacións. Vexa King, Pan e Roberts (2013), apéndice B para unha descrición máis detallada.

Figura 2.5: Esquema simplificado do procedemento utilizado por King, Pan, and Roberts (2013) para estimar o sentimento de 11 millóns de publicacións en redes sociais chinesas. En primeiro lugar, nun paso de preprocesamento , os investigadores converteron as publicacións de redes sociais nunha matriz de documentos (ver Grimmer and Stewart (2013) para obter máis información). En segundo lugar, codificaron manualmente os sentimentos dunha pequena mostra de publicacións. En terceiro lugar, formaron un modelo de aprendizaxe supervisado para clasificar o sentimento de publicacións. En cuarto lugar, utilizaron o modelo de aprendizaxe supervisado para estimar o sentimento de todas as publicacións. Vexa King, Pan, and Roberts (2013) , apéndice B para unha descrición máis detallada.

Ao final, King e seus colegas descubriron que só se censuraron tres tipos de artigos: pornografía, crítica dos censores e aqueles que tiñan un potencial de acción colectiva (é dicir, a posibilidade de levar a protestas a gran escala). Ao observar un gran número de publicacións que foron eliminadas e publicacións non eliminadas, King e compañeiros souberon saber como funcionan os censores só mirando e contando. Ademais, prefire un tema que se producirá ao longo deste libro, o enfoque de aprendizaxe supervisado que usaron, etiquetando algúns resultados e logo construíndo un modelo de aprendizaxe automática para etiquetar o resto, resulta moi común na investigación social na era dixital . Verá imaxes moi similares á figura 2.5 nos capítulos 3 (Preguntas) e 5 (Creación de colaboración en masa); Esta é unha das poucas ideas que aparecen en varios capítulos.

Estes exemplos: o comportamento laboral dos condutores de taxis en Nova York e os comportamentos de censura dos medios sociais do goberno chinés, mostran que o conteo relativamente sinxelo de grandes fontes de datos pode, nalgunhas situacións, levar a investigacións interesantes e importantes. Non obstante, en ambos casos, os investigadores tiveron que traer preguntas interesantes á gran fonte de datos; os datos por si só non eran suficientes.