más comentarios

Esta traducción fue creado por un ordenador. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

más comentarios

Esta sección está diseñada para ser utilizada como una referencia, en lugar de ser leído como un relato.

Introducción (Sección 3.1)

Muchos de los temas de este capítulo también se han hecho eco en los discursos presidenciales recientes en la Asociación Americana de Investigación de Opinión Pública (AAPOR), tales como Dillman (2002) , Newport (2011) , Santos (2014) , y Link (2015) .

Para más antecedentes históricos sobre el desarrollo de la investigación de la encuesta, véase Smith (1976) y Converse (1987) . Para más información sobre la idea de tres épocas de la investigación de la encuesta, ver Groves (2011) y Dillman, Smyth, and Christian (2008) (que rompe las tres épocas de forma ligeramente diferente).

Un pico dentro de la transición de la primera a la segunda era en la investigación de la encuesta es Groves and Kahn (1979) , que hace una comparación detallada de cabeza a cabeza entre una cara a cara y la encuesta telefónica. Brick and Tucker (2007) mira hacia atrás en el desarrollo histórico de los métodos de muestreo marcación aleatoria.

Para obtener más cómo la investigación encuesta ha cambiado en el pasado en respuesta a los cambios en la sociedad, ver Tourangeau (2004) , Mitofsky (1989) , y Couper (2011) .

Pidiendo vs observación (Sección 3.2)

Aprender acerca de estados internos, haciendo preguntas puede ser problemático porque a veces los propios encuestados no son conscientes de sus estados internos. Por ejemplo, Nisbett and Wilson (1977) tienen un papel maravilloso con el sugerente título: "Decir más de lo que podemos saber:. Informes verbales sobre los procesos mentales" En el documento, los autores concluyen: "los sujetos son a veces (a) conscientes de la existencia de un estímulo que importante influenciada una respuesta, (b) conocimiento de la existencia de la respuesta, y (c) sin saber que el estímulo ha afectado a la respuesta ".

Para argumentos que los investigadores deben preferir comportamiento observado a las conductas o actitudes informado, ver Baumeister, Vohs, and Funder (2007) (psicología) y Jerolmack and Khan (2014) y las respuestas (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (sociología). La diferencia entre pedir y observando también se plantea en economía, donde los investigadores hablan de preferencias declaradas y reveladas. Por ejemplo, un investigador puede pedir a los encuestados si prefiere comer un helado o ir al gimnasio (preferencias declaradas) o la investigación podría observar la frecuencia con la gente come el helado e ir al gimnasio (preferencias reveladas). Hay un profundo escepticismo de ciertos tipos de datos de preferencias declaradas en economía (Hausman 2012) .

Un tema principal de estos debates es que el comportamiento reportado no siempre es exacta. Sin embargo, el comportamiento registrado de forma automática puede no ser exacta, no puede ser recogida en una muestra de interés, y puede no ser accesibles a los investigadores. Por lo tanto, en algunas situaciones, creo que el comportamiento reportado puede ser útil. Además, un segundo tema principal de estos debates es que los informes acerca de las emociones, conocimientos, expectativas y opiniones no son siempre exactas. Sin embargo, si la información sobre estos estados internos son necesarios por los investigadores, ya sea para ayudar a explicar algunos comportamientos o como lo que se explicará a continuación, pidiendo puede ser apropiado.

De error total de la encuesta (sección 3.3)

Para los tratamientos de larga duración en el libro de error total de la encuesta, ver Groves et al. (2009) o Weisberg (2005) . Para una historia de la evolución del error total de la encuesta, ver Groves and Lyberg (2010) .

En cuanto a la representación, una gran introducción a los problemas de falta de respuesta y sesgo de no respuesta es el informe del Consejo Nacional de Investigación sobre la falta de respuesta en las encuestas de Ciencias Sociales: Un programa de investigación (2013) . Otra visión general útil es proporcionado por (Groves 2006) . Además, la totalidad de los números especiales de la revista Journal of estadísticas oficiales, Public Opinion Quarterly, y los Anales de la Academia Americana de Ciencias Políticas y Sociales se han publicado sobre el tema de la falta de respuesta. Por último, en realidad hay muchas maneras diferentes de calcular la tasa de respuesta; estos enfoques se describen en detalle en un informe de la Asociación Americana de Investigadores de Opinión Pública (AAPOR) (Public Opinion Researchers} 2015) .

La encuesta de 1936 Resumen literario ha sido estudiado en detalle (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . También se ha utilizado como una parábola para advertir contra la recopilación de datos al azar (Gayo-Avello 2011) . En 1936, George Gallup utiliza una forma más sofisticada de muestreo, y fue capaz de producir estimaciones más precisas con una muestra mucho más pequeña. El éxito de Gallup sobre el resumen literario fue un hito del desarrollo de la investigación de la encuesta (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .

En cuanto a la medición, un gran primer recurso para el diseño de cuestionarios es Bradburn, Sudman, and Wansink (2004) . Para un tratamiento más avanzado centrado específicamente en cuestiones de actitud, ver Schuman and Presser (1996) . Más acerca de las preguntas de pre-prueba está disponible en Presser and Blair (1994) , Presser et al. (2004) , y en el Capítulo 8 de Groves et al. (2009) .

El tratamiento clásico, libro-longitud de la compensación entre los costes de la encuesta y los errores de la encuesta es Groves (2004) .

¿A quién preguntar (Sección 3.4)

Tratamiento de longitud del libro clásico de muestreo probabilístico estándar y la estimación son Lohr (2009) (más introductoria) y Särndal, Swensson, and Wretman (2003) (más avanzada). Un tratamiento clásico libro-longitud de los métodos de post-estratificación y afines es Särndal and Lundström (2005) . En algunos lugares era digital, los investigadores saben un poco acerca de los no encuestados, lo cual no suele ser cierto en el pasado. Diferentes formas de ajuste de no respuesta son posibles cuando los investigadores tienen información sobre los no encuestados (Kalton and Flores-Cervantes 2003; Smith 2011) .

El estudio Xbox de Wang et al. (2015) utiliza una técnica denominada regresión multinivel y post-estratificación (MRP, a veces llamado "Mr. P") que permite a los investigadores estimar celular significa que incluso cuando hay muchas, muchas células. Aunque existe cierto debate acerca de la calidad de las estimaciones de esta técnica, se parece como un área prometedora para explorar. La técnica fue utilizada por primera vez en Park, Gelman, and Bafumi (2004) , y no ha habido uso y posterior debate (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Para más información sobre la conexión entre los pesos individuales y pesos basados en células ver Gelman (2007) .

Para otros enfoques a encuestas web de ponderación, véase Schonlau et al. (2009) , Valliant and Dever (2011) y Bethlehem (2010) .

Coincidencia de la muestra fue propuesto por Rivers (2007) . Bethlehem (2015) sostiene que el rendimiento de juego de la muestra en realidad será similar a otros métodos de muestreo (por ejemplo, muestreo estratificado) y otros enfoques de ajuste (por ejemplo, después de la estratificación). Para más información sobre los paneles en línea, ver Callegaro et al. (2014) .

A veces, los investigadores han encontrado que las muestras probabilísticas y las muestras no probabilísticas producen estimaciones de calidad similar (Ansolabehere and Schaffner 2014) , pero otras comparaciones han encontrado que las muestras no probabilísticas obtienen peores resultados (Malhotra and Krosnick 2007; Yeager et al. 2011) . Una posible razón de estas diferencias es que las muestras no probabilísticas han mejorado con el tiempo. Para una visión más pesimista de los métodos de muestreo no probabilísticos ver el Grupo de Tareas AAPOR sobre Muestreo no probabilístico (Baker et al. 2013) , y también recomiendo leer el comentario que sigue el informe de síntesis.

Para un meta-análisis sobre el efecto de la ponderación para reducir el sesgo en las muestras no probabilísticas, véase la Tabla 2.4 en Tourangeau, Conrad, and Couper (2013) , que lleva a los autores a la conclusión de "ajustes parecen ser útiles, pero las correcciones falibles. . ".

Cómo pedir (Sección 3.5)

Conrad and Schober (2008) proporciona un volumen titulado editado previsión de la Encuesta del futuro, y que aborda muchos de los temas en esta sección. Couper (2011) direcciones similares temas, y Schober et al. (2015) ofrece un buen ejemplo de cómo los métodos de recolección de datos que se adaptan a un nuevo ajuste pueden resultar en datos de mayor calidad.

Para otro ejemplo interesante del uso de aplicaciones de Facebook para las encuestas de ciencias sociales, véase Bail (2015) .

Para obtener más consejos para hacer encuestas una experiencia agradable y valiosa para los participantes, ver el trabajo en el Método de Diseño Tailored (Dillman, Smyth, and Christian 2014) .

Stone et al. (2007) ofrece un tratamiento longitud libro de evaluación ecológica momentánea y métodos relacionados.

Las encuestas enlaces a otros datos (Sección 3.6)

Judson (2007) describió el proceso de combinación de encuestas y datos administrativos como "integración de la información," trata sobre algunas ventajas de este enfoque, y ofrece algunos ejemplos.

Otra forma en que los investigadores pueden utilizar las huellas digitales y los datos administrativos es un marco de muestreo para las personas con características específicas. Sin embargo, acceder a estos registros a utilizar un marco de muestreo también puede crear preguntas relacionadas con la privacidad (Beskow, Sandler, and Weinberger 2006) .

En cuanto a preguntar amplificada, este enfoque no es tan nuevo como podría parecer a como lo he descrito. Este enfoque tiene profundas conexiones con tres grandes áreas de post-estratificación basada en estadísticas-modelo (Little 1993) , la imputación (Rubin 2004) , y la estimación de área pequeña (Rao and Molina 2015) . También se relaciona con el uso de variables de sustitución en la investigación médica (Pepe 1992) .

Además de las cuestiones éticas relacionadas con el acceso a los datos de rastreo digitales, que pide amplificada también podría utilizarse para inferir los rasgos sensibles que la gente no puede elegir a revelar en una encuesta (Kosinski, Stillwell, and Graepel 2013) .

Las estimaciones de costes y tiempo en Blumenstock, Cadamuro, and On (2015) se refieren más a la variable de costo el costo de una encuesta costes adicionales y no incluyen fijos tales como el costo de limpiar y procesar los datos de las llamadas. En general, pidiendo amplificada, probablemente tendrá altos costos fijos y bajos costes variables similares a los experimentos digitales (véase el capítulo 4). Más detalles sobre los datos utilizados en Blumenstock, Cadamuro, and On (2015) el papel son en Blumenstock and Eagle (2010) y Blumenstock and Eagle (2012) . Enfoques de múltiples imputuation (Rubin 2004) podrían ayudar a la incertidumbre en las estimaciones de captura de pedir amplificado. Si los investigadores que hacen amplifican pidiendo sólo se preocupan por los recuentos totales, en lugar de rasgos a nivel individual, entonces los enfoques de King and Lu (2008) y Hopkins and King (2010) pueden ser útiles. Para más información sobre los métodos de aprendizaje automático en Blumenstock, Cadamuro, and On (2015) , véase James et al. (2013) (más introductoria) o Hastie, Tibshirani, and Friedman (2009) (más avanzada). Otro libro de texto de aprendizaje automático popular es Murphy (2012) .

En cuanto a preguntar enriquecida, los resultados en Ansolabehere y Hersh (2012) bisagra en dos pasos fundamentales: 1) la capacidad de Catalist combinar muchas fuentes de datos dispares para producir un archivo de datos principal preciso y 2) la capacidad de Catalist para enlazar los datos de la encuesta de su archivo de datos principal. Por lo tanto, Ansolabehere y Hersh comprobar cada uno de estos pasos cuidadosamente.

Para crear el archivo de datos principal, Catalist combina y armoniza la información de muchas fuentes diferentes, incluyendo: múltiples registros de votación instantáneas de cada estado, los datos de Nacional de Cambio de Dirección de Registro de la Oficina de Correos, y datos de otros proveedores comerciales no especificados. Los detalles morbosos acerca de cómo sucede todo esto de limpieza y fusión están más allá del alcance de este libro, pero este proceso, no importa qué tan cuidadoso, se propagarán los errores en las fuentes de datos originales e introducirán errores. Aunque Catalist estaba dispuesto a discutir su tratamiento de la información y proporcionar algunos de sus datos en bruto, que era simplemente imposible para los investigadores para revisar todo el canal de datos Catalist. Más bien, los investigadores estaban en una situación en la que el archivo de datos Catalist tenía algún desconocido, y quizás imposible de conocer, la cantidad de error. Esta es una grave preocupación porque un crítico podría especular que las grandes diferencias entre los informes de las encuestas sobre el CCES y el comportamiento en el archivo de datos maestros Catalist fueron causados por errores en el archivo de datos maestros, no por las declaraciones incorrectas por los encuestados.

Ansolabehere y Hersh tomaron dos enfoques diferentes para abordar la preocupación de calidad de los datos. En primer lugar, además de comparar la votación de auto-reporte de la votación en el archivo maestro Catalist, los investigadores también compararon las partes de auto-reporte, la raza, el estado de registro de votantes (por ejemplo, registrados o no registrados) y el método de votación (por ejemplo, en persona, en ausencia votación, etc.) a los valores encontrados en las bases de datos Catalist. Por estas cuatro variables demográficas, los investigadores encontraron niveles mucho más altos de acuerdo entre informe de la encuesta y los datos en el archivo maestro Catalist que para la votación. Por lo tanto, el archivo de datos maestros Catalist parece tener información de alta calidad para los rasgos distintos de votación, lo que sugiere que no es de mala calidad general. En segundo lugar, en parte, utilizando los datos de Catalist, Ansolabehere y Hersh desarrollaron tres medidas diferentes de calidad de los registros de votación del condado, y encontraron que la tasa estimada de exceso de información de la votación fue esencialmente sin relación con ninguna de estas medidas de calidad de datos, un hallazgo que sugieren que las altas tasas de exceso de información no están siendo impulsados por los condados con inusualmente baja calidad de los datos.

Teniendo en cuenta la creación de este archivo principal de votantes, la segunda fuente de errores potenciales es la vinculación de los registros de la encuesta a la misma. Por ejemplo, si esta vinculación se realiza de forma incorrecta podría dar lugar a una sobreestimación de la diferencia entre el comportamiento de voto presentado y validado (Neter, Maynes, and Ramanathan 1965) . Si cada persona tenía un establo identificador, único que había en ambas fuentes de datos, a continuación, la vinculación sería trivial. En los demás países de Estados Unidos y la mayoría, sin embargo, no existe ninguna identificación universal. Además, incluso si hubiera un identificador tales personas probablemente serían reacios a proporcionar a los investigadores estudiar! Por lo tanto, Catalist tenía que hacer la vinculación utilizando identificadores imperfectos, en este caso cuatro piezas de información sobre cada encuestado: nombre, sexo, año de nacimiento, y la dirección de su casa. Por ejemplo, Catalist tenía que decidir si el Homie J Simpson en el CCES era la misma persona que el Homer Jay Simpson en su archivo de datos maestros. En la práctica, la igualación es un proceso difícil y complicado, y, para empeorar las cosas para los investigadores, Catalist considera su técnica de juego para ser propietario.

Con el fin de validar los algoritmos de correspondencia, se apoyaron en dos desafíos. En primer lugar, Catalist participó en un concurso de coincidencia que fue dirigido por una tercera parte independiente: la MITRE Corporation. MITRE proporciona todos los participantes dos archivos de datos ruidosos, que se ajustará, y diferentes equipos compitieron para volver a MITRE la mejor coincidencia. Debido a sí MITRE sabía que el juego correcto que fueron capaces de anotar los equipos. De las 40 empresas que compitieron, Catalist quedó en segundo lugar. Este tipo de evaluación independiente, de terceros de la tecnología patentada es bastante raro y muy valioso; nos debe dar la confianza de que los procedimientos de concordancia de Catalist son esencialmente en el estado de la técnica. Pero es el estado de la técnica es lo suficientemente bueno? Además de esta competición a juego, Ansolabehere y Hersh crearon su propio desafío a juego para Catalist. A partir de un proyecto anterior, Ansolabehere y Hersh habían recogido los registros de votantes de la Florida. Se proporcionaron algunos de estos registros con algunos de sus campos redactada de manera que Catalist y luego compararon los informes de estos campos a sus valores reales de Catalist. Afortunadamente, los informes de Catalist estaban cerca de los valores retenidos, lo que indica que podría Catalist coincide con los registros de votantes parciales en su archivo de datos maestros. Estos dos retos, uno por un tercero y uno por Ansolabehere y Hersh, nos dan más confianza en los algoritmos de correspondencia Catalist, a pesar de que no podemos revisar su aplicación exacta nosotros mismos.

Ha habido muchos intentos anteriores para validar la votación. Para una visión general de que la literatura, ver Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , y Hanmer, Banks, and White (2014) .

Es importante tener en cuenta que, si bien en este caso, los investigadores fueron alentados por la calidad de los datos de Catalist, otras evaluaciones de los proveedores comerciales han sido menos entusiasta. Los investigadores han encontrado mala calidad cuando los datos de una encuesta a un consumidor-archivo de marketing del Grupo de Sistemas (que a su vez se fusionaron los datos de tres proveedores: Acxiom, Experian y InfoUSA) (Pasek et al. 2014) . Es decir, el archivo de datos no encontró respuestas de la encuesta que los investigadores esperaban que es correcta, el archivo de datos había datos de un gran número de preguntas, y el patrón de los datos que faltan desaparecido fue correlacionada con el valor encuesta informado (en otras palabras, los datos que faltan fue sistemática , no al azar).

Para más información sobre registro de vinculación entre las encuestas y los datos administrativos, consulte Sakshaug and Kreuter (2012) y Schnell (2013) . Para más información sobre vinculación de registros en general, véase Dunn (1946) y Fellegi and Sunter (1969) (histórico) y Larsen and Winkler (2014) (moderna). Enfoques similares también se han desarrollado en la informática bajo los nombres, como la deduplicación de datos, la identificación ejemplo, la coincidencia de nombre, detección de duplicados, y la detección de duplicados registro (Elmagarmid, Ipeirotis, and Verykios 2007) . También hay privacidad preservar enfoques para registrar la vinculación que no requieren la transmisión de información de identificación personal (Schnell 2013) . Los investigadores en Facebook desarrollaron un procedimiento para vincular probabilisticsly sus registros al comportamiento electoral (Jones et al. 2013) ; esta vinculación se realiza para evaluar un experimento que os voy a contar en el capítulo 4 (Bond et al. 2012) .

Otro ejemplo de la vinculación de una encuesta social a gran escala a los registros administrativos del gobierno proviene de la Encuesta de Salud y Jubilación y la Administración de Seguridad Social. Para más información sobre este estudio, incluyendo información sobre el procedimiento de consentimiento, véase Olson (1996) y Olson (1999) .

El proceso de combinar muchas fuentes de registros administrativos en un fichero de datos maestro-el proceso que Catalist empleados-es común en las oficinas de estadística de algunos gobiernos nacionales. Dos investigadores de Estadística de Suecia han escrito un libro detallado sobre el tema (Wallgren and Wallgren 2007) . Para ver un ejemplo de este enfoque en un solo condado en los Estados Unidos (Condado de Olmstead, Minnesota, el hogar de la Clínica Mayo), ver Sauver et al. (2011) . Para más información sobre los errores que pueden aparecer en los registros administrativos, consulte Groen (2012) .