comentários adicionais

Esta secção destina-se a ser usado como uma referência, em vez de ser lido como uma narrativa.

  • Introdução (Seção 3.1)

Muitos dos temas deste capítulo também foram encontrados em discursos presidenciais recentes da Associação Americana de Pesquisa de Opinião Pública (AAPOR), como Dillman (2002) , Newport (2011) , Santos (2014) e Link (2015) .

Para o fundo mais histórico sobre o desenvolvimento de pesquisas de levantamento, ver Smith (1976) e Converse (1987) . Para saber mais sobre a idéia de três eras de pesquisa de opinião, ver Groves (2011) e Dillman, Smyth, and Christian (2008) (que rompe as três eras de forma ligeiramente diferente).

Um pico no interior da transição da primeira para a segunda época na pesquisa de opinião é Groves and Kahn (1979) , que faz uma comparação detalhada cabeça-de-cabeça entre um face-a-face e pesquisa por telefone. Brick and Tucker (2007) olha para o desenvolvimento histórico de métodos de amostragem de discagem dígitos aleatórios.

Para mais como pesquisa de opinião mudou no passado em resposta às mudanças na sociedade, consulte Tourangeau (2004) , Mitofsky (1989) , e Couper (2011) .

  • Pedindo vs. observação (Seção 3.2)

Aprender sobre estados internos, fazendo perguntas pode ser problemático, porque às vezes os próprios entrevistados não estão conscientes dos seus estados internos. Por exemplo, Nisbett and Wilson (1977) têm um papel maravilhoso com o título sugestivo: "Dizer mais do que podemos saber:. Relatórios verbais sobre os processos mentais" No trabalho, os autores concluem: "os sujeitos são, por vezes, (a) desconhece a existência de um estímulo importante que influenciou uma resposta, (b) desconhece a existência da resposta, e (c), sem saber que o estímulo afectou a resposta. "

Para argumentos que os investigadores devem preferem comportamento observado ao comportamento ou atitudes comunicados, ver a Baumeister, Vohs, and Funder (2007) (psicologia) e Jerolmack and Khan (2014) e respostas (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (sociologia). A diferença entre perguntando e observando também surge em economia, onde os investigadores falar sobre preferências declaradas e reveladas. Por exemplo, um pesquisador pode pedir aos entrevistados se eles preferem comer sorvete ou ir ao ginásio (preferências declaradas) ou a pesquisa pode observar como muitas vezes as pessoas comem sorvete e ir ao ginásio (preferências reveladas). Não é profundo ceticismo de certos tipos de dados preferências declaradas na economia (Hausman 2012) .

Um tema principal a partir desses debates é que o comportamento relatado não é sempre preciso. Mas, o comportamento gravadas automaticamente podem não ser precisos, não podem ser recolhidos em uma amostra de interesse, e pode não ser acessível a pesquisadores. Assim, em algumas situações, acho que o comportamento relatado pode ser útil. Além disso, um segundo tema principal a partir desses debates é que os relatórios sobre as emoções, conhecimentos, expectativas e opiniões nem sempre são precisos. Mas, se a informação sobre estes estados internos são necessários por pesquisadores, seja para ajudar a explicar alguns comportamentos ou como a coisa a ser explicada, então perguntar pode ser apropriado.

  • Erro total inquérito (Seção 3.3)

Para tratamentos de comprimento livro sobre erro total da pesquisa, ver Groves et al. (2009) ou Weisberg (2005) . Para uma história do desenvolvimento do erro total da pesquisa, ver Groves and Lyberg (2010) .

Em termos de representação, uma ótima introdução para as questões de não-resposta e viés de não-resposta é o relatório do National Research Council on falta de resposta em Pesquisas em Ciências Sociais: uma agenda de pesquisa (2013) . Outra perspectiva útil é fornecido por (Groves 2006) . Além disso, todo edições especiais da Revista de Estatística Oficial, a opinião pública Trimestral, e Os Anais da Academia Americana de Ciências Políticas e Sociais têm sido publicados sobre o tema da não-resposta. Finalmente, na verdade existem muitas maneiras diferentes de calcular a taxa de resposta; essas abordagens são descritos em detalhes em um relatório da Associação Americana de Opinião Pública Pesquisadores (AAPOR) (Public Opinion Researchers} 2015) .

The Literary Digest poll 1936 tem sido estudada em detalhe (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Ele também tem sido usado como uma parábola para advertir contra a coleta de dados aleatória (Gayo-Avello 2011) . Em 1936, George Gallup usou uma forma mais sofisticada de amostragem, e foi capaz de produzir estimativas mais precisas com uma amostra muito menor. O sucesso da Gallup sobre o Literary Digest foi um marco no desenvolvimento de pesquisas de levantamento (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .

Em termos de medição, um grande primeiro recurso para a concepção de questionários é Bradburn, Sudman, and Wansink (2004) . Para um tratamento mais avançado focado especificamente nas dúvidas atitude, consulte Schuman and Presser (1996) . Mais informações sobre questões de pré-teste está disponível em Presser and Blair (1994) , Presser et al. (2004) , e o Capítulo 8 de Groves et al. (2009) .

O tratamento clássico, livro de comprimento do trade-off entre os custos de pesquisa e os erros de levantamento é Groves (2004) .

  • A quem perguntar (Seção 3.4)

Tratamento de livro de comprimento clássico de amostragem probabilística padrão e estimativa são Lohr (2009) (mais introdutório) e Särndal, Swensson, and Wretman (2003) (mais avançado). Um tratamento clássico livro de comprimento de métodos de pós-estratificação e afins é Särndal and Lundström (2005) . Em alguns locais era digital, os pesquisadores sabem um pouco sobre os não respondentes, o que não era verdade, muitas vezes no passado. Diferentes formas de ajuste de não-respostas são possíveis quando os investigadores têm informações sobre os não respondentes (Kalton and Flores-Cervantes 2003; Smith 2011) .

O estudo Xbox de Wang et al. (2015) usa uma técnica chamada de regressão multinível e pós-estratificação (MRP, às vezes chamado de "Senhor P"), que permite aos pesquisadores estimar celular significa que mesmo quando há muitas, muitas células. Embora haja algum debate sobre a qualidade das estimativas de esta técnica, ele parece ser uma área promissora para explorar. A técnica foi usada pela primeira vez no Park, Gelman, and Bafumi (2004) , e tem havido uso e debate posterior (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Para mais informações sobre a conexão entre os pesos individuais e pesos baseados em células ver Gelman (2007) .

Para outras abordagens para pesquisas na web de ponderação, consulte Schonlau et al. (2009) , Valliant and Dever (2011) e Bethlehem (2010) .

Coincidindo amostra foi proposta por Rivers (2007) . Bethlehem (2015) argumenta que o desempenho de correspondência amostra vai ser realmente semelhante a outras abordagens de amostragem (por exemplo, amostragem estratificada) e outras abordagens de ajuste (por exemplo, pós-estratificação). Para mais informações sobre painéis online, consulte Callegaro et al. (2014) .

Às vezes, os pesquisadores descobriram que as amostras de probabilidade e amostras não probabilísticas produzir estimativas de qualidade similar (Ansolabehere and Schaffner 2014) , mas outras comparações descobriram que as amostras não probabilísticas fazer pior (Malhotra and Krosnick 2007; Yeager et al. 2011) . Uma possível razão para estas diferenças é que as amostras não probabilísticas têm melhorado ao longo do tempo. Para uma visão mais pessimista de métodos de amostragem não probabilística ver Task Force da AAPOR na amostragem não probabilística (Baker et al. 2013) , e eu também recomendo a leitura do comentário que acompanha o relatório de síntese.

Para uma meta-análise sobre o efeito da ponderação, para reduzir o viés em amostras não probabilísticas, consulte a Tabela 2.4 na Tourangeau, Conrad, and Couper (2013) , o que leva os autores a concluir "ajustes parecem ser correções úteis, mas falíveis. . . "

  • Como pedir (Seção 3.5)

Conrad and Schober (2008) fornece um volume editado intitulado Prevendo Interview Survey of the Future, e aborda muitos dos temas nesta seção. Couper (2011) aborda temas semelhantes, e Schober et al. (2015) oferece um bom exemplo de como os métodos de recolha de dados, que são adaptados a uma nova configuração pode resultar em dados de maior qualidade.

Para outro exemplo interessante de usar aplicativos do Facebook para pesquisas de ciências sociais, ver Bail (2015) .

Para mais conselhos sobre como fazer pesquisas de uma experiência agradável e útil para os participantes, ver o trabalho na Tailored Método Projeto (Dillman, Smyth, and Christian 2014) .

Stone et al. (2007) oferece um tratamento comprimento livro de avaliação momentânea ecológica e métodos relacionados.

  • Surveys ligados a outros dados (Seção 3.6)

Judson (2007) descreveu o processo de combinação de inquéritos e dados administrativos como "integração de informações", discute algumas vantagens desta abordagem, e oferece alguns exemplos.

Outra forma que os pesquisadores podem usar vestígios digitais e dados administrativos é um quadro de amostragem para as pessoas com características específicas. No entanto, acessar esses registros a ser usado um quadro de amostragem também pode criar questões relacionadas com a privacidade (Beskow, Sandler, and Weinberger 2006) .

Em relação à pergunta amplificada, esta abordagem não é tão novo como pode parecer de como eu descrevi. Esta abordagem tem profundas ligações a três grandes áreas em com base em estatísticas do modelo de pós-estratificação (Little 1993) , de imputação (Rubin 2004) , e pequena área de estimativa (Rao and Molina 2015) . Ele está também relacionado com o uso de variáveis de substituição, na investigação médica (Pepe 1992) .

Além das questões éticas relacionadas com o acesso aos dados de rastreamento digitais, pedindo amplificado também poderia ser usado para inferir características sensíveis que as pessoas podem optar por não revelar em uma pesquisa (Kosinski, Stillwell, and Graepel 2013) .

As estimativas de custo e tempo em Blumenstock, Cadamuro, and On (2015) referem-se mais a relação custo-a variável custo de um Pesquisa de Custos e adicionais não incluem fixos, tais como o custo de limpar e processar os dados da chamada. Em geral, pedindo amplificado provavelmente terá custos fixos elevados e baixos custos variáveis ​​semelhantes às experiências digitais (ver Capítulo 4). Mais detalhes sobre os dados utilizados no Blumenstock, Cadamuro, and On (2015) de papel estão em Blumenstock and Eagle (2010) e Blumenstock and Eagle (2012) . Abordagens de múltiplos imputuation (Rubin 2004) pode ajudar a incerteza de captura nas estimativas de pedir amplificado. Se os pesquisadores fazendo amplificado pedindo só se preocupam com contagens de agregados, em vez de traços de nível individual, as abordagens em King and Lu (2008) e Hopkins and King (2010) pode ser útil. Para saber mais sobre as abordagens de aprendizado de máquina em Blumenstock, Cadamuro, and On (2015) , ver James et al. (2013) (mais introdutório) ou Hastie, Tibshirani, and Friedman (2009) (mais avançado). Outro popular livro de aprendizagem de máquina é Murphy (2012) .

Em relação à pergunta enriquecido, os resultados em Ansolabehere e Hersh (2012) dobradiça em duas etapas principais: 1) a capacidade de Catalist de combinar várias fontes de dados diferentes para produzir um arquivo de dados mestre precisa e 2) a capacidade de Catalist para vincular os dados da pesquisa para seu arquivo de dados mestre. Portanto, Ansolabehere e Hersh verificar cada uma dessas etapas com cuidado.

Para criar o arquivo de dados mestre, Catalist combina e harmoniza informações de muitas fontes diferentes, incluindo: vários instantâneos registros de votação de cada estado, dados de Mudança Nacional de Registro de Endereços do Post Office e dados de outros provedores comerciais não especificados. Os detalhes sobre como tudo isso de limpeza e fusão acontece estão além do escopo deste livro, mas este processo, não importa o quão cuidadoso, irá propagar erros nas fontes de dados originais e irá introduzir erros. Embora Catalist estava disposto a discutir o processamento de dados e fornecer alguns de seus dados brutos, era simplesmente impossível para os pesquisadores a rever todo o pipeline de dados Catalist. Em vez disso, os pesquisadores foram em uma situação onde o arquivo de dados Catalist tinha algum desconhecido, e talvez desconhecido, quantidade de erro. Esta é uma preocupação séria porque um crítico pode-se especular que as grandes diferenças entre os relatórios de pesquisa sobre os CCES e o comportamento no arquivo de dados mestre Catalist foram causados ​​por erros no ficheiro de dados mestre, e não por declarações incorrectas pelos entrevistados.

Ansolabehere e Hersh teve duas abordagens diferentes para abordar a preocupação com a qualidade dos dados. Primeira festa, além de comparar a votação auto-relatado para votar no arquivo mestre Catalist, os pesquisadores também compararam auto-reportados, raça, status de registro de eleitores (por exemplo, registrado ou não registrado) e metodologia de votação (por exemplo, em pessoa, ausente cédula, etc.) a estes valores encontrados nas bases de dados Catalist. Por estas quatro variáveis ​​demográficas, os pesquisadores descobriram níveis muito mais elevados de concordância entre o relatório de pesquisa e dados no arquivo mestre Catalist que para votação. Assim, o arquivo de dados mestre Catalist parece ter informação de alta qualidade para fins diferentes de votação traços, sugerindo que não é de má qualidade global. Em segundo lugar, em parte, usando dados de Catalist, Ansolabehere e Hersh desenvolveu três diferentes medidas de qualidade dos registros de votação do condado, e eles descobriram que a taxa estimada de excesso de informação da votação era essencialmente alheio a qualquer destas medidas de qualidade de dados, uma descoberta que sugerem que as altas taxas de excesso de informação não estão a ser impulsionado por municípios com anormalmente baixa qualidade dos dados.

Dada a criação desse arquivo de votação mestre, a segunda fonte de potenciais erros está ligando os registos das vistorias a ele. Por exemplo, se essa ligação é feita de forma incorreta pode levar a um excesso de estimativa da diferença entre o comportamento eleitoral reportados e validados (Neter, Maynes, and Ramanathan 1965) . Se cada pessoa tinha um identificador estável, única que estava em ambas as fontes de dados, em seguida, ligação seria trivial. Nos Estados Unidos e da maioria dos outros países, no entanto, não há nenhum identificador universal. Além disso, mesmo se não houvesse tal identificador pessoas provavelmente ser hesitante para fornecê-la para o levantamento pesquisadores! Assim, Catalist tinha de fazer a ligação usando identificadores imperfeitos, neste caso, quatro pedaços de informações sobre cada entrevistado: nome, sexo, ano de nascimento e endereço de casa. Por exemplo, Catalist tinha que decidir se o Homie J Simpson nos CCES era a mesma pessoa que o Homer Jay Simpson em seu arquivo de dados mestre. Na prática, a correspondência é um processo difícil e complicado, e, para piorar as coisas para os pesquisadores, Catalist considerada a sua técnica de correspondência a ser proprietária.

A fim de validar os algoritmos de correspondência, que se baseou em dois desafios. Em primeiro lugar, Catalist participou de uma competição de correspondência que foi executado por um, terceiro independente: o MITRE Corporation. MITRE desde que todos os participantes dois arquivos de dados ruidosos a ser correspondido, e diferentes equipes competiram para voltar ao MITRE a melhor correspondência. Porque a própria MITRE conhecia a correspondência correta eles foram capazes de marcar as equipes. Das 40 empresas que concorreram, Catalist ficou em segundo lugar. Este tipo de avaliação independente, de terceiros da tecnologia proprietária é muito raro e extremamente valioso; ele deve nos dar a confiança de que os procedimentos de harmonização do Catalist são essencialmente no state-of-the-art. Mas é a state-of-the-art bom o suficiente? Além desta competição correspondência, Ansolabehere e Hersh criou seu próprio desafio de correspondência para Catalist. A partir de um projeto anterior, Ansolabehere e Hersh tinha recolhido registros de eleitores da Flórida. Eles forneceram alguns desses registros com alguns dos seus campos redigidas para Catalist e, em seguida, em comparação relatórios desses campos para os valores reais da Catalist. Felizmente, os relatórios de Catalist foram próximos dos valores retidos, indicando que Catalist poderia coincidir com registros de eleitores parciais na sua arquivo de dados mestre. Estes dois desafios, um por um terceiro e um por Ansolabehere e Hersh, dá-nos mais confiança nos algoritmos correspondentes Catalist, mesmo que não possa rever a sua execução exata nós mesmos.

Houve muitas tentativas anteriores para validar a votação. Para uma visão geral do que a literatura, ver Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , e Hanmer, Banks, and White (2014) .

É importante observar que, embora, neste caso, os investigadores foram encorajados pela qualidade dos dados de Catalist, outras avaliações de fornecedores comerciais têm sido menos entusiastas. Pesquisadores descobriram má qualidade quando os dados de uma pesquisa para um arquivo consumidor de Grupo de Sistemas de Marketing (que se fundiram juntos dados de três fornecedores: Acxiom, Experian, e InfoUSA) (Pasek et al. 2014) . Ou seja, o arquivo de dados não encontrou respostas da pesquisa que os investigadores esperados para ser correto, o arquivo de dados tinha de dados para um grande número de perguntas, e o padrão de dados em falta em falta foi correlacionada ao valor de pesquisa relatada (em outras palavras, os dados em falta foi sistemática , não aleatória).

Para saber mais sobre linkage entre inquéritos e dados administrativos, consulte Sakshaug and Kreuter (2012) e Schnell (2013) . Para saber mais sobre linkage em geral, consulte Dunn (1946) e Fellegi and Sunter (1969) (historical) e Larsen and Winkler (2014) (modern). Abordagens semelhantes também foram desenvolvidos em ciência da computação sob os nomes tais como deduplicação de dados, identificação exemplo, nome correspondente, detecção de duplicados e duplicar detecção de registro (Elmagarmid, Ipeirotis, and Verykios 2007) . Há também a privacidade preservar abordagens para gravar ligação que não requerem a transmissão de informações de identificação pessoal (Schnell 2013) . Pesquisadores do Facebook desenvolveu um procedimento para conectar probabilisticsly seus registros de comportamento de voto (Jones et al. 2013) ; essa ligação foi feito para avaliar uma experiência que eu vou dizer-lhe sobre no capítulo 4 (Bond et al. 2012) .

Outro exemplo de ligação de um inquérito social em grande escala para os registros administrativos do governo vem da Administração da Segurança Social de Saúde e Pesquisa de Aposentadoria e. Para saber mais sobre esse estudo, incluindo informações sobre o processo de aprovação, ver Olson (1996) e Olson (1999) .

O processo de combinar várias fontes de registros administrativos em um arquivo de dados, o processo mestre que Catalist funcionários-é comum nos institutos de estatística de alguns governos nacionais. Dois pesquisadores de Estatística da Suécia ter escrito um livro detalhado sobre o tema (Wallgren and Wallgren 2007) . Para um exemplo desta abordagem em um único condado nos Estados Unidos (Olmstead County, Minnesota; casa da Clínica Mayo), consulte Sauver et al. (2011) . Para mais informações sobre erros que podem aparecer em registros administrativos, consulte Groen (2012) .