comentarios

Esta sección está dirixida a ser usado como unha referencia, no canto de ser lido como un relato.

  • Introdución (Sección 3.1)

Moitos dos temas deste capítulo tamén se atoparon en discursos presidenciais recentes da Asociación Americana de Investigación de Opinión Pública (AAPOR), como Dillman (2002) , Newport (2011) , Santos (2014) e Link (2015) .

Ao fondo máis histórico sobre o desenvolvemento de investigacións de levantamento, ver Smith (1976) e Converse (1987) . Para saber máis sobre a idea de tres eras de investigación de opinión, ver Groves (2011) e Dillman, Smyth, and Christian (2008) (que rompe as tres eras de forma lixeiramente diferente).

Un pico no interior da transición da primeira á segunda tempada na investigación de opinión é Groves and Kahn (1979) , que fai unha comparación detallada cabeza-de-cabeza entre un cara a cara e investigación por teléfono. Brick and Tucker (2007) mira para o desenvolvemento histórico de métodos de mostraxe de marcación díxitos aleatorios.

Para máis como investigación de opinión cambiou no pasado en resposta aos cambios na sociedade, consulte Tourangeau (2004) , Mitofsky (1989) , e Couper (2011) .

  • Pedindo vs. observación (Sección 3.2)

Aprender sobre estados internos, facendo preguntas pode ser problemático, porque ás veces os propios entrevistados non son conscientes dos seus estados internos. Por exemplo, Nisbett and Wilson (1977) teñen un papel marabilloso co título suxestivo: "Dicir máis que podemos saber :. Informes verbais sobre os procesos mentais" No traballo, os autores conclúen: "os suxeitos son, por veces, (a) descoñece a existencia dun estímulo importante que influenciou unha resposta, (b) descoñece a existencia da resposta, e (c), sen saber que o estímulo afectou a resposta. "

Para argumentos que os investigadores deben prefiren comportamento observado ao comportamento ou actitudes comunicados, ver a Baumeister, Vohs, and Funder (2007) (psicoloxía) e Jerolmack and Khan (2014) e respostas (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (socioloxía). A diferenza entre pregunta e observando tamén xorde en economía, onde os investigadores falar preferencias declaradas e reveladas. Por exemplo, un investigador pode pedir aos entrevistados se prefiren comer sorbete ou ir ao ximnasio (preferencias declaradas) ou a investigación pode observar como moitas veces a xente come xeados e ir ao ximnasio (preferencias reveladas). Non é profundo escepticismo de certos tipos de datos preferencias declaradas na economía (Hausman 2012) .

Un tema principal a partir destes debates é que o comportamento informar non é sempre que. Pero o comportamento gravadas automaticamente poden non ser precisos, non poden ser recollidos nunha mostra de interese, e pode non ser accesible a investigadores. Así, en ocasións, creo que o comportamento informar pode ser útil. Ademais, un segundo tema principal a partir destes debates é que os informes sobre as emocións, coñecementos, expectativas e opinións non sempre son precisos. Pero, se a información sobre estes estados internos son necesarios por investigadores, sexa para axudar a explicar algúns comportamentos ou como a cousa a explicarse, entón preguntar se pode apropiado.

  • Erro total enquisa (Sección 3.3)

Para tratamentos de lonxitude libro sobre erro total da investigación, ver Groves et al. (2009) ou Weisberg (2005) . Para unha historia do desenvolvemento do erro total da investigación, ver Groves and Lyberg (2010) .

En termos de representación, unha boa introdución para as cuestións de non-resposta e viés de non-resposta é o informe do National Research Council on falta de resposta en enquisas en Ciencias Sociais: unha axenda de investigación (2013) . Outra perspectiva útil é fornecido por (Groves 2006) . Ademais, todo edicións especiais da Revista de Estatística Oficial, a opinión pública Trimestral, e Os Anais da Academia Americana de Ciencias Políticas e Sociais foron publicados sobre o tema da non-resposta. Finalmente, en realidade hai moitas maneiras diferentes de calcular a taxa de resposta; esas enfoques son descritos en detalle nun informe da Asociación Americana de Opinión Pública Investigadores (AAPOR) (Public Opinion Researchers} 2015) .

The Literary Digest poll 1936 foi estudada en detalle (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Tamén foi usado como unha parábola para advertir contra a obtención de datos aleatoria (Gayo-Avello 2011) . En 1936, George Gallup usou unha forma máis sofisticada de mostraxe, e foi capaz de producir estimacións máis precisas cunha mostra moi pequena. O éxito da Gallup sobre o Literary Digest foi un marco no desenvolvemento de investigacións de levantamento (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .

En termos de medida, un gran primeiro recurso para o deseño de cuestionarios é Bradburn, Sudman, and Wansink (2004) . Para un tratamento máis avanzado centrado especificamente nas dúbidas actitude, consulte Schuman and Presser (1996) . Máis información sobre cuestións de pre-test está dispoñible en Presser and Blair (1994) , Presser et al. (2004) , eo Capítulo 8 de Groves et al. (2009) .

O tratamento clásico, libro de lonxitude do trade-off entre os custos de investigación e os erros de levantamento é Groves (2004) .

  • A quen preguntar (Sección 3.4)

Tratamento de libro de lonxitude clásico de mostraxe probabilística estándar e estimación son Lohr (2009) (máis introdutorio) e Särndal, Swensson, and Wretman (2003) (máis avanzado). Un tratamento clásico libro de lonxitude de métodos de post-estratificación e afíns é Särndal and Lundström (2005) . Nalgúns lugares era dixital, os investigadores saben algo sobre os non respondentes, o que non era verdade, moitas veces no pasado. Distintas formas de axuste de non-respostas son posibles cando os investigadores teñen información sobre os non respondentes (Kalton and Flores-Cervantes 2003; Smith 2011) .

O estudo Xbox de Wang et al. (2015) utiliza unha técnica chamada de regresión multinivel e post-estratificación (MRP, ás veces chamado de "Señor P"), que permite aos investigadores estimar móbil significa que aínda que hai moitas, moitas células. Aínda que hai algún debate sobre a calidade das estimacións de esta técnica, parece ser unha área prometedora para explorar. A técnica foi usada por primeira vez no Park, Gelman, and Bafumi (2004) , e houbo uso e debate posterior (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Para máis información sobre a conexión entre os pesos individuais e pesos baseados en células ver Gelman (2007) .

Para outras propostas para investigacións na web de ponderación, consulte Schonlau et al. (2009) , Valliant and Dever (2011) e Bethlehem (2010) .

Coincidindo mostra foi proposta por Rivers (2007) . Bethlehem (2015) argumenta que a actuación de correspondencia mostra será realmente semellante a outras abordaxes de mostraxe (por exemplo, mostraxe estratificada) e outras abordaxes de axuste (por exemplo, pos-estratificación). Para máis información sobre paneis liña, consulte Callegaro et al. (2014) .

Ás veces, os investigadores descubriron que as mostras de probabilidade e mostras non probabilísticas producir estimacións de calidade similar (Ansolabehere and Schaffner 2014) , pero outras comparacións descubriron que as mostras non probabilísticas facer peor (Malhotra and Krosnick 2007; Yeager et al. 2011) . Unha posible razón para estas diferenzas é que as mostras non probabilísticas melloraron ao longo do tempo. Para unha visión máis pesimista de métodos de mostraxe non probabilística ver Task Force da AAPOR na mostraxe non probabilística (Baker et al. 2013) , e eu tamén recomendo a lectura do comentario que acompaña o informe de síntese.

Para unha meta-análise sobre o efecto da ponderación, para reducir o viés en mostras non probabilísticas, consulte a táboa 2.4 na Tourangeau, Conrad, and Couper (2013) , o que leva aos autores a concluír "axustes parecen correccións útiles, pero falíveis. . . "

  • Como pedir (Sección 3.5)

Conrad and Schober (2008) ofrece un volume editado titulado Prevendo Interview Survey of the Future, e aborda moitos dos temas nesta sección. Couper (2011) aborda temas semellantes, e Schober et al. (2015) ofrece un bo exemplo de como os métodos de recollida de datos, que son adaptados a unha nova configuración pode producir datos de maior calidade.

Para outro exemplo interesante de usar aplicacións de Facebook para investigacións de ciencias sociais, ver Bail (2015) .

Para máis consellos sobre como facer buscas de unha experiencia agradable e útil para os participantes, ver o traballo na Tailored Método Proxecto (Dillman, Smyth, and Christian 2014) .

Stone et al. (2007) ofrece un tratamento lonxitude libro de avaliación momentánea ecolóxica e métodos relacionados.

  • Surveys ligados a outros datos (Sección 3.6)

Judson (2007) describiu o proceso de combinación de enquisas e datos administrativos como "integración de información", discute algunhas vantaxes deste enfoque, e ofrece algúns exemplos.

Outra forma que os investigadores poden usar restos dixitais e datos administrativos é un cadro de mostraxe para as persoas con características específicas. Con todo, acceder a estes rexistros a ser usado un cadro de mostraxe tamén pode crear cuestións relacionadas coa privacidade (Beskow, Sandler, and Weinberger 2006) .

En relación á pregunta amplificada, esta visión non é tan novo como pode parecer como eu describe. Esta visión ten profundas conexións a tres grandes áreas en en base a estatísticas do modelo de post-estratificación (Little 1993) , de imputación (Rubin 2004) , e pequena área de estimación (Rao and Molina 2015) . Está tamén relacionado co uso de variables de substitución, na investigación médica (Pepe 1992) .

Ademais das cuestións éticas relacionadas co acceso a datos de seguimento dixital, pedindo amplificado tamén podería ser usado para inferir características sensibles que a xente pode optar por non revelar nunha investigación (Kosinski, Stillwell, and Graepel 2013) .

As estimacións de custo e tempo en Blumenstock, Cadamuro, and On (2015) refírense máis a relación custo-a variable custo dun Busca de Custos e adicional non inclúen fixos, tales como o custo de limpar e procesar os datos da chamada. En xeral, pedindo amplificado probablemente terá custos fixos altos e baixos custos variables semellantes ás experiencias dixitais (véxase o capítulo 4). Máis detalles sobre os datos utilizados no Blumenstock, Cadamuro, and On (2015) de papel están en Blumenstock and Eagle (2010) e Blumenstock and Eagle (2012) . Enfoques de múltiples imputuation (Rubin 2004) pode axudar a incerteza de captura nas estimacións de pedir amplificado. Se os investigadores facendo amplificado pedindo só se preocupan contas de áridos, no canto de trazos de nivel individual, os enfoques en King and Lu (2008) e Hopkins and King (2010) pode ser útil. Para saber máis sobre os enfoques de aprendizaxe de máquina en Blumenstock, Cadamuro, and On (2015) , ver James et al. (2013) (máis introdutorio) ou Hastie, Tibshirani, and Friedman (2009) (máis avanzado). Outro popular libro de aprendizaxe de máquina é Murphy (2012) .

En relación á pregunta enriquecido, os resultados en Ansolabehere e Hersh (2012) bisagra en dúas etapas principais: 1) a capacidade de Catalist de combinar varias fontes de datos para producir un ficheiro de datos mestre precisa e 2) a capacidade de Catalist para vincular os datos da investigación para o ficheiro de datos mestre. Polo tanto, Ansolabehere e Hersh comprobar cada unha destas etapas con coidado.

Para crear o ficheiro de datos mestre, Catalist combina e harmoniza información de moitas fontes diferentes, incluíndo: varios instantáneas rexistros de votación de cada estado, datos de Cambio Nacional de Rexistro de enderezos de Post Office e datos doutros proveedores comerciais non especificados. Os detalles sobre como todo isto de limpeza e fusión ocorre están alén do alcance deste libro, pero este proceso, non importa o quão coidadoso, pode propagarse erros nas fontes de datos orixinais e pode introducir erros. Aínda Catalist estaba disposto a discutir o procesamento de datos e proporcionar algúns dos seus datos en bruto, era simplemente imposible para os investigadores a revisar todo o pipeline de datos Catalist. Pola contra, os investigadores foron nunha situación onde o ficheiro de datos Catalist tiña algún descoñecido, e quizais descoñecido, cantidade de erro. Esta é unha preocupación seria porque un crítico pódese especular que as grandes diferenzas entre os informes de investigación sobre os CCES eo comportamento no ficheiro de datos mestre Catalist foron causados ​​por erros no ficheiro de datos mestre, e non por declaracións incorrectas polos entrevistados.

Ansolabehere e Hersh tivo dous enfoques diferentes para abordar a preocupación pola calidade dos datos. Primeira festa, ademais de comparar a votación auto-informar para votar no arquivo mestre Catalist, os investigadores tamén compararon auto-reportados, raza, estado de rexistro de electores (por exemplo, rexistrado ou non rexistrado) e metodoloxía votación (por exemplo, en persoa, ausente cédula, etc.) a estes valores atopados nas bases de datos Catalist. Por estas catro variables demográficas, os investigadores descubriron niveis moito máis elevados de concordancia entre o informe de investigación e datos no arquivo mestre Catalist que para votación. Así, o arquivo de datos mestre Catalist parece información de alta calidade para fins distintos de votación trazos, suxerindo que non é de mala calidade global. En segundo lugar, en parte, usando datos de Catalist, Ansolabehere e Hersh desenvolveu tres diferentes medidas de calidade dos rexistros de votación do condado, e descubriron que a taxa estimada de exceso de información da votación era esencialmente alleo a calquera destas medidas de calidade de datos, un descubrimento que suxiren que as altas taxas de exceso de información non están a ser impulsado por municipios con anormalmente baixa calidade dos datos.

Dada a creación deste arquivo de votación mestre, a segunda fonte de potenciais erros está conectando os rexistros das vistoria a el. Por exemplo, se esa conexión é feita de forma incorrecta pode levar a un exceso de estimación da diferenza entre o comportamento electoral reportados e validados (Neter, Maynes, and Ramanathan 1965) . Se cada persoa tiña un identificador estable, único que estaba en ambas as fontes de datos, a continuación, conexión sería trivial. Nos Estados Unidos e da maioría dos outros países, con todo, non hai ningún identificador universal. Ademais, aínda que non houbese tal identificador persoas probablemente ser hesitantes para ofrece-la para o levantamento investigadores! Así, Catalist tiña que facer a conexión usando identificadores imperfeitos, neste caso, catro anacos de información sobre cada entrevistado: nome, sexo, ano de nacemento e enderezo de casa. Por exemplo, Catalist tiña que decidir se o Homi J Simpson nos CCES era a mesma persoa que o Homer Jay Simpson no seu ficheiro de datos mestre. Na práctica, a correspondencia é un proceso difícil e complicado, e, para empeorar as cousas para os investigadores, Catalist considerada a súa técnica de correspondencia a ser propietaria.

A fin de validar os algoritmos de correspondencia, que se baseou en dous retos. En primeiro lugar, Catalist participou dunha competición de correspondencia que foi executado por un, terceiro independente: o Mitre Corporation. Mitre sempre que todos os participantes dous ficheiros de datos ruidosos sendo correspondido, e diferentes equipos competiron para volver ao Mitre a mellor correspondencia. Porque a propia Mitre coñecía a correspondencia correcta puideron marcar os equipos. Das 40 empresas que concorreron, Catalist quedou en segundo lugar. Este tipo de avaliación independente, de terceiros da tecnoloxía propietaria é moi raro e moi valioso; debe dar a confianza de que os procedementos de harmonización do Catalist son esencialmente no state-of-the-art. Pero é a state-of-the-art bo o suficiente? Ademais desta competencia correspondencia, Ansolabehere e Hersh creou o seu propio desafío de correspondencia para Catalist. A partir dun proxecto anterior, Ansolabehere e Hersh recollera rexistros de electores de Florida. Eles prepararon algúns deses rexistros con algúns dos seus campos redactadas para Catalist e, a continuación, en comparación informes destes campos para os valores reais de Catalist. Afortunadamente, os informes de Catalist foron próximos dos valores retidos, indicando que Catalist podería coincidir con rexistros de electores parciais na súa ficheiro de datos mestre. Estes dous retos, un por un terceiro e un por Ansolabehere e Hersh, dános máis confianza nos algoritmos correspondentes Catalist, aínda que non poida revisar a súa execución exacta nós mesmos.

Houbo moitos intentos anteriores para validar a votación. Para unha visión xeral do que a literatura, ver Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , e Hanmer, Banks, and White (2014) .

É importante observar que, aínda que, neste caso, os investigadores foron encoraxados pola calidade dos datos de Catalist, outras avaliacións de provedores comerciais foron menos entusiastas. Descubriron mala calidade cando os datos dunha investigación a un arquivo consumidor de Grupo de Sistemas de Marketing (que se fundiron xuntos datos de tres provedores: Acxiom, Experian, e InfoUSA) (Pasek et al. 2014) . É dicir, o arquivo de datos non atopa respostas da investigación que os investigadores esperamos para ser correcto, o arquivo de datos tiña de datos para un gran número de preguntas, eo patrón de datos en falta en falta foi correlacionada ao valor de investigación relatada (noutras palabras, os datos en falta foi sistemática , non aleatoria).

Para saber máis sobre Linkage entre enquisas e datos administrativos, consulte Sakshaug and Kreuter (2012) e Schnell (2013) . Para saber máis sobre Linkage en xeral, consulte Dunn (1946) e Fellegi and Sunter (1969) (historical) e Larsen and Winkler (2014) (modern). Enfoques semellantes tamén foron desenvolvidos en ciencia da computación baixo os nomes como deduplicação de datos, identificación exemplo, nome correspondente, detección de duplicados e duplicar detección de rexistro (Elmagarmid, Ipeirotis, and Verykios 2007) . Hai tamén a privacidade preservar enfoques para gravar conexión que non requiren a transmisión de información de identificación persoal (Schnell 2013) . Investigadores de Facebook desenvolveu un procedemento para conectar probabilisticsly seus rexistros de comportamento de voto (Jones et al. 2013) ; esta conexión foi feito para avaliar unha experiencia que eu vou dicir-lle sobre o capítulo 4 (Bond et al. 2012) .

Outro exemplo de conexión dunha enquisa social a gran escala para os rexistros administrativos do goberno vén da Administración da Seguridade Social de Saúde e Busca de Xubilación e. Para saber máis sobre este estudo, incluíndo información sobre o proceso de aprobación, ver Olson (1996) e Olson (1999) .

O proceso de combinar varias fontes de rexistros administrativos nun ficheiro de datos, o proceso mestre que Catalist funcionarios é común nos institutos de estatística dalgúns gobernos nacionais. Dous investigadores de Estatística de Suecia escribir un libro detallado sobre o tema (Wallgren and Wallgren 2007) . Para un exemplo desta visión nun único condado nos Estados Unidos (Olmstead County, Minnesota, casa da Clínica Mayo), consulte Sauver et al. (2011) . Para máis información sobre erros que poden aparecer en rexistros administrativos, consulte Groen (2012) .