2.4.1 coisas Contagem

Contagem simples pode ser interessante se você combinar uma boa pergunta com bons dados.

Embora seja redigida em linguagem sofisticada, muitas pesquisas sociais estão apenas contando as coisas. Na era do big data, os pesquisadores podem contar mais do que nunca, mas isso não significa que devam começar a contar a esmo. Em vez disso, os pesquisadores devem perguntar: o que vale a pena contar? Isso pode parecer um assunto totalmente subjetivo, mas existem alguns padrões gerais.

Muitas vezes os alunos motivam sua pesquisa contando dizendo: eu vou contar algo que ninguém nunca contou antes. Por exemplo, um estudante pode dizer que muitas pessoas estudaram migrantes e muitas pessoas estudaram gêmeos, mas ninguém estudou gêmeos migrantes. Na minha experiência, essa estratégia, que chamo de motivação pela ausência , geralmente não leva a uma boa pesquisa. A motivação pela ausência é como dizer que há um buraco ali, e vou trabalhar muito duro para preenchê-lo. Mas nem todo buraco precisa ser preenchido.

Em vez de motivar pela ausência, acho que uma estratégia melhor é procurar por questões de pesquisa que sejam importantes ou interessantes (ou, idealmente, ambas). Ambos os termos são um pouco difíceis de definir, mas uma maneira de pensar em pesquisa importante é que ela tem algum impacto mensurável ou alimenta uma importante decisão dos formuladores de políticas. Por exemplo, medir a taxa de desemprego é importante porque é um indicador da economia que impulsiona as decisões políticas. Geralmente, acho que os pesquisadores têm um bom senso do que é importante. Então, no restante desta seção, vou fornecer dois exemplos em que acho que contar é interessante. Em cada caso, os pesquisadores não estavam contando a esmo; em vez disso, eles estavam contando em contextos muito particulares que revelavam importantes insights sobre ideias mais gerais sobre como os sistemas sociais funcionam. Em outras palavras, muito do que torna interessante esses exercícios de contagem em particular não são os dados em si, vem dessas idéias mais gerais.

Um exemplo do simples poder de contar vem do estudo de Henry Farber (2015) sobre o comportamento dos taxistas de Nova York. Embora esse grupo possa não soar inerentemente interessante, é um site de pesquisa estratégica para testar duas teorias concorrentes na economia do trabalho. Para os propósitos da pesquisa de Farber, há duas características importantes sobre o ambiente de trabalho dos taxistas: (1) seu salário horário flutua de um dia para outro, baseado em fatores como o clima, e (2) o número de horas que eles o trabalho pode flutuar todos os dias com base em suas decisões. Essas características levam a uma questão interessante sobre a relação entre os salários por hora e as horas trabalhadas. Modelos neoclássicos em economia preveem que os motoristas de táxi trabalharão mais nos dias em que têm salários mais altos por hora. Alternativamente, os modelos da economia comportamental predizem exatamente o oposto. Se os motoristas definem uma meta de renda específica - digamos, US $ 100 por dia - e trabalham até que a meta seja atingida, os motoristas acabarão trabalhando menos horas nos dias em que estão ganhando mais. Por exemplo, se você fosse um alvo, poderia acabar trabalhando quatro horas em um bom dia (US $ 25 por hora) e cinco horas em um dia ruim (US $ 20 por hora). Assim, os motoristas trabalham mais horas em dias com maiores salários por hora (como previsto pelos modelos neoclássicos) ou mais horas em dias com salários mais baixos por hora (como previsto por modelos econômicos comportamentais)?

Para responder a essa pergunta, Farber obteve dados sobre cada viagem de táxi feita pelos táxis da cidade de Nova York de 2009 a 2013, dados que estão agora disponíveis publicamente. Esses dados - coletados por meio de medidores eletrônicos que a cidade exige que os táxis usem - incluem informações sobre cada viagem: horário de início, local de início, horário de término, local final, tarifa e gorjeta (se a gorjeta tiver sido paga com cartão de crédito) . Usando os dados desse taxímetro, Farber descobriu que a maioria dos motoristas trabalha mais nos dias em que os salários são mais altos, de acordo com a teoria neoclássica.

Além dessa constatação principal, Farber conseguiu usar o tamanho dos dados para entender melhor a heterogeneidade e a dinâmica. Ele descobriu que, ao longo do tempo, novos motoristas gradualmente aprendem a trabalhar mais horas em dias de altos salários (por exemplo, eles aprendem a se comportar como o modelo neoclássico prevê). E os novos motoristas que se comportam mais como alvos-alvo são mais propensos a deixar de ser taxistas. Ambas as descobertas mais sutis, que ajudam a explicar o comportamento observado dos drivers atuais, só foram possíveis devido ao tamanho do conjunto de dados. Eles eram impossíveis de detectar em estudos anteriores que usaram folhas de viagem de papel de um pequeno número de taxistas durante um curto período de tempo (Camerer et al. 1997) .

O estudo de Farber estava perto do melhor cenário para uma pesquisa usando uma grande fonte de dados porque os dados coletados pela cidade eram muito próximos aos dados que Farber teria coletado (uma diferença é que Farber teria desejado dados no total). salários - tarifas mais gorjetas - mas os dados da cidade incluíam apenas gorjetas pagas com cartão de crédito). No entanto, os dados por si só não foram suficientes. A chave para a pesquisa de Farber estava trazendo uma questão interessante para os dados, uma questão que tem implicações maiores além dessa configuração específica.

Um segundo exemplo de contagem de coisas vem da pesquisa de Gary King, Jennifer Pan e Molly Roberts (2013) sobre a censura online do governo chinês. Neste caso, no entanto, os pesquisadores tiveram que coletar seus próprios dados grandes e tiveram que lidar com o fato de que seus dados estavam incompletos.

King e seus colegas foram motivados pelo fato de que os posts de mídia social na China são censurados por um enorme aparato estatal que supostamente inclui dezenas de milhares de pessoas. Pesquisadores e cidadãos, no entanto, têm pouca noção de como esses censores decidem qual conteúdo deve ser excluído. Acadêmicos da China na verdade têm expectativas conflitantes sobre quais tipos de posts são mais propensos a serem excluídos. Alguns pensam que os censores se concentram em postagens críticas ao Estado, enquanto outros pensam que se concentram em postagens que estimulam o comportamento coletivo, como protestos. Descobrir quais dessas expectativas são corretas tem implicações sobre como os pesquisadores entendem a China e outros governos autoritários que se envolvem na censura. Portanto, King e colegas queriam comparar as publicações que foram publicadas e, posteriormente, excluídas com postagens que foram publicadas e nunca excluídas.

A coleta desses postos envolveu a façanha de engenharia surpreendente de rastejar mais de 1.000 chineses websites, cada mídia social com diferentes layouts de página de apuramento de cargos relevantes, e, em seguida revisitar estes lugares para ver que foram posteriormente excluído. Além dos problemas normais de engenharia associados com grande escala web-crawling, este projecto teve o desafio adicional que precisava ser extremamente rápido, porque muitas mensagens censuradas são tomadas para baixo em menos de 24 horas. Em outras palavras, um rastreador lento iria perder muitos posts que foram censurados. Além disso, os indexadores tinha que fazer tudo isso de coleta de dados enquanto estiver fugindo de detecção para que os sites de mídia social bloquear o acesso ou alterar as suas políticas em resposta ao estudo.

No momento em que essa massiva tarefa de engenharia foi concluída, King e seus colegas obtiveram cerca de 11 milhões de posts em 85 diferentes tópicos pré-especificados, cada um com um nível assumido de sensibilidade. Por exemplo, um tópico de alta sensibilidade é Ai Weiwei, o artista dissidente; Um tema de sensibilidade média é a apreciação e a desvalorização da moeda chinesa, e um tema de baixa sensibilidade é a Copa do Mundo. Destes 11 milhões de postos, cerca de 2 milhões foram censurados. Surpreendentemente, King e colegas descobriram que as postagens em tópicos altamente confidenciais eram censuradas apenas com uma frequência ligeiramente maior que as postadas em tópicos de média e baixa sensibilidade. Em outras palavras, os censores chineses têm a mesma probabilidade de censurar um post que menciona Ai Weiwei como um posto que menciona a Copa do Mundo. Essas descobertas não apóiam a ideia de que o governo censure todas as postagens sobre tópicos delicados.

Esse cálculo simples da taxa de censura por tópico poderia ser enganoso, no entanto. Por exemplo, o governo pode censurar postagens que apóiam Ai Weiwei, mas deixar mensagens que são críticas a ele. Para distinguir entre as postagens com mais cuidado, os pesquisadores precisavam medir o sentimento de cada post. Infelizmente, apesar de muito trabalho, métodos totalmente automatizados de detecção de sentimentos usando dicionários pré-existentes ainda não são muito bons em muitas situações (pense nos problemas que criam um cronograma emocional de 11 de setembro de 2001, descrito na seção 2.3.9). Portanto, King e seus colegas precisavam de uma maneira de rotular seus 11 milhões de posts em redes sociais quanto a se eles eram (1) críticos do estado, (2) apoiadores do estado ou (3) relatos irrelevantes ou factuais sobre os eventos. Isso soa como um trabalho enorme, mas eles o resolveram usando um truque poderoso que é comum na ciência de dados, mas relativamente raro nas ciências sociais: aprendizado supervisionado ; veja a figura 2.5.

Primeiro, em uma etapa tipicamente chamada de pré-processamento , os pesquisadores converteram as postagens de mídia social em uma matriz de termo de documento , onde havia uma linha para cada documento e uma coluna que registrava se a postagem continha uma palavra específica (por exemplo, protesto ou tráfego) . Em seguida, um grupo de assistentes de pesquisa rotulou à mão o sentimento de uma amostra de posts. Em seguida, eles usaram esses dados rotulados manualmente para criar um modelo de aprendizado de máquina que pudesse inferir o sentimento de um post com base em suas características. Finalmente, eles usaram esse modelo para estimar o sentimento de todos os 11 milhões de postagens.

Assim, em vez de ler e rotular manualmente 11 milhões de postagens - o que seria logisticamente impossível -, King e seus colegas rotularam manualmente um pequeno número de postagens e usaram o aprendizado supervisionado para estimar o sentimento de todas as postagens. Depois de concluir essa análise, eles puderam concluir que, de maneira um tanto surpreendente, a probabilidade de um posto ser excluído não estava relacionada a se ele criticava o estado ou apoiava o estado.

Figura 2.5: Esquema simplificado do procedimento usado por King, Pan e Roberts (2013) para estimar o sentimento de 11 milhões de posts em mídias sociais chinesas. Primeiro, em uma etapa de pré-processamento, os pesquisadores converteram as postagens das mídias sociais em uma matriz de termo de documento (ver Grimmer e Stewart (2013) para obter mais informações). Em segundo lugar, codificaram os sentimentos de uma pequena amostra de mensagens. Terceiro, eles treinaram um modelo de aprendizado supervisionado para classificar o sentimento dos posts. Quarto, eles usaram o modelo de aprendizado supervisionado para estimar o sentimento de todos os posts. Veja King, Pan e Roberts (2013), apêndice B para uma descrição mais detalhada.

Figura 2.5: Esquema simplificado do procedimento usado por King, Pan, and Roberts (2013) para estimar o sentimento de 11 milhões de posts em mídias sociais chinesas. Primeiro, em uma etapa de pré - processamento , os pesquisadores converteram as postagens das mídias sociais em uma matriz de termo de documento (ver Grimmer and Stewart (2013) para obter mais informações). Em segundo lugar, codificaram os sentimentos de uma pequena amostra de mensagens. Terceiro, eles treinaram um modelo de aprendizado supervisionado para classificar o sentimento dos posts. Quarto, eles usaram o modelo de aprendizado supervisionado para estimar o sentimento de todos os posts. Veja King, Pan, and Roberts (2013) , apêndice B para uma descrição mais detalhada.

No final, King e seus colegas descobriram que apenas três tipos de posts eram regularmente censurados: pornografia, crítica de censores e aqueles que tinham potencial de ação coletiva (isto é, a possibilidade de levar a protestos em larga escala). Ao observar um grande número de postagens que foram excluídas e postagens que não foram excluídas, King e seus colegas puderam aprender como os censores funcionam apenas assistindo e contando. Além disso, prenunciando um tema que ocorrerá ao longo deste livro, a abordagem de aprendizado supervisionado que eles usaram - rotular alguns resultados e depois construir um modelo de aprendizado de máquina para rotular o resto - é muito comum em pesquisas sociais na era digital. . Você verá figuras muito semelhantes à figura 2.5 nos capítulos 3 (Fazendo perguntas) e 5 (Criando colaboração em massa); Essa é uma das poucas idéias que aparecem em vários capítulos.

Esses exemplos - o comportamento de trabalho dos taxistas em Nova York e o comportamento de censura da mídia social do governo chinês - mostram que a contagem relativamente simples de fontes de big data pode, em algumas situações, levar a pesquisas interessantes e importantes. Em ambos os casos, no entanto, os pesquisadores tiveram que trazer perguntas interessantes para a grande fonte de dados; os dados por si só não eram suficientes.