més comentaris

Aquesta secció està dissenyada per a ser utilitzada com una referència, en lloc de ser llegit com un relat.

  • Introducció (Secció 3.1)

Molts dels temes d'aquest capítol també s'han fet ressò en els discursos presidencials recents en l'Associació Americana d'Investigació d'Opinió Pública (AAPOR), com ara Dillman (2002) , Newport (2011) , Santos (2014) , i Link (2015) .

Per a més antecedents històrics sobre el desenvolupament de la investigació de l'enquesta, vegeu Smith (1976) i Converse (1987) . Per a més informació sobre la idea de tres èpoques de la investigació de l'enquesta, veure Groves (2011) i Dillman, Smyth, and Christian (2008) (que trenca les tres èpoques de forma lleugerament diferent).

Un pic dins de la transició de la primera a la segona era a la investigació de l'enquesta és Groves and Kahn (1979) , que fa una comparació detallada de cap a cap entre una cara a cara i l'enquesta telefònica. Brick and Tucker (2007) mira cap enrere en el desenvolupament històric dels mètodes de mostreig marcació aleatòria.

Per a més com la investigació enquesta ha canviat en el passat en resposta als canvis en la societat, veure Tourangeau (2004) , Mitofsky (1989) , i Couper (2011) .

  • Demanant vs observació (Secció 3.2)

Aprendre sobre estats interns, fent preguntes pot ser problemàtic perquè a vegades els propis enquestats no són conscients dels seus estats interns. Per exemple, Nisbett and Wilson (1977) tenen un paper meravellós amb el suggerent títol: "Dir més del que podem saber :. Informes verbals sobre els processos mentals" En el document, els autors conclouen: "els subjectes són de vegades (a) conscients de la existència d'un estímul que important influenciada una resposta, (b) coneixement de l'existència de la resposta, i (c) sense saber que l'estímul ha afectat la resposta ".

Per arguments que els investigadors han de preferir comportament observat a les conductes o actituds informat, veure Baumeister, Vohs, and Funder (2007) (psicologia) i Jerolmack and Khan (2014) i les respostes (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (sociologia). La diferència entre demanar i observant també es planteja en economia, on els investigadors parlen de preferències declarades i revelades. Per exemple, un investigador pot demanar als enquestats si prefereix menjar un gelat o anar al gimnàs (preferències declarades) o la investigació podria observar la freqüència amb la gent menja el gelat i anar al gimnàs (preferències revelades). Hi ha un profund escepticisme de certs tipus de dades de preferències declarades en economia (Hausman 2012) .

Un tema principal d'aquests debats és que el comportament reportat no sempre és exacta. No obstant això, el comportament registrat de forma automàtica pot no ser exacta, no pot ser recollida en una mostra d'interès, i pot no ser accessibles als investigadors. Per tant, en algunes situacions, crec que el comportament reportat pot ser útil. A més, un segon tema principal d'aquests debats és que els informes sobre les emocions, coneixements, expectatives i opinions no són sempre exactes. No obstant això, si la informació sobre aquests estats interns són necessaris pels investigadors, ja sigui per ajudar a explicar alguns comportaments o com el que s'explicarà a continuació, demanant pot ser apropiat.

  • D'error total de l'enquesta (secció 3.3)

Per als tractaments de llarga durada en el llibre d'error total de l'enquesta, veure Groves et al. (2009) o Weisberg (2005) . Per a una història de l'evolució de l'error total de l'enquesta, veure Groves and Lyberg (2010) .

Pel que fa a la representació, una gran introducció als problemes de manca de resposta i biaix de no resposta és l'informe del Consell Nacional d'Investigació sobre la manca de resposta en les enquestes de Ciències Socials: Un programa d'investigació (2013) . Una altra visió general útil és proporcionat per (Groves 2006) . A més, la totalitat dels números especials de la revista Journal of estadístiques oficials, Public Opinion Quarterly, i els Anals de l'Acadèmia Americana de Ciències Polítiques i Socials s'han publicat sobre el tema de la manca de resposta. Finalment, en realitat hi ha moltes maneres diferents de calcular la taxa de resposta; aquests enfocaments es descriuen en detall en un informe de l'Associació Americana d'Investigadors d'Opinió Pública (AAPOR) (Public Opinion Researchers} 2015) .

L'enquesta de 1936 Resum literari ha estat estudiat en detall (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . També s'ha utilitzat com una paràbola per advertir contra la recopilació de dades a l'atzar (Gayo-Avello 2011) . El 1936, George Gallup utilitza una forma més sofisticada de mostreig, i va ser capaç de produir estimacions més precises amb una mostra molt més petita. L'èxit de Gallup sobre el resum literari va ser una fita del desenvolupament de la investigació de l'enquesta (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .

Quant a la mesura, un gran primer recurs per al disseny de qüestionaris és Bradburn, Sudman, and Wansink (2004) . Per a un tractament més avançat centrat específicament en qüestions d'actitud, veure Schuman and Presser (1996) . Més sobre les preguntes de pre-prova està disponible en Presser and Blair (1994) , Presser et al. (2004) , i en el capítol 8 de Groves et al. (2009) .

El tractament clàssic, llibre-longitud de la compensació entre els costos de l'enquesta i els errors de l'enquesta és Groves (2004) .

  • A qui preguntar (Secció 3.4)

Tractament de longitud del llibre clàssic de mostreig probabilístic estàndard i l'estimació són Lohr (2009) (més introductòria) i Särndal, Swensson, and Wretman (2003) (més avançada). Un tractament clàssic llibre-longitud dels mètodes de post-estratificació i afins és Särndal and Lundström (2005) . En alguns llocs era digital, els investigadors saben una mica sobre els no enquestats, cosa que no sol ser cert en el passat. Diferents formes d'ajust de no resposta són possibles quan els investigadors tenen informació sobre els no enquestats (Kalton and Flores-Cervantes 2003; Smith 2011) .

L'estudi Xbox de Wang et al. (2015) utilitza una tècnica anomenada regressió multinivell i post-estratificació (MRP, de vegades anomenat "Mr. P") que permet als investigadors estimar cel·lular vol dir que fins i tot quan hi ha moltes, moltes cèl·lules. Encara que hi ha un cert debat sobre la qualitat de les estimacions d'aquesta tècnica, s'assembla com una àrea prometedora per explorar. La tècnica va ser utilitzada per primera vegada en Park, Gelman, and Bafumi (2004) , i no hi ha hagut ús i posterior debat (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Per a més informació sobre la connexió entre els pesos individuals i pesos basats en cèl·lules veure Gelman (2007) .

Per a altres enfocaments a enquestes web de ponderació, vegeu Schonlau et al. (2009) , Valliant and Dever (2011) i Bethlehem (2010) .

Coincidència de la mostra va ser proposat per Rivers (2007) . Bethlehem (2015) sosté que el rendiment de joc de la mostra en realitat serà similar a altres mètodes de mostreig (per exemple, mostreig estratificat) i altres enfocaments d'ajust (per exemple, després de l'estratificació). Per a més informació sobre els panells en línia, veure Callegaro et al. (2014) .

De vegades, els investigadors han trobat que les mostres probabilístiques i les mostres no probabilístiques produeixen estimacions de qualitat similar (Ansolabehere and Schaffner 2014) , però altres comparacions han trobat que les mostres no probabilístiques obtenen pitjors resultats (Malhotra and Krosnick 2007; Yeager et al. 2011) . Una possible raó d'aquestes diferències és que les mostres no probabilístiques han millorat amb el temps. Per a una visió més pessimista dels mètodes de mostreig no probabilístics veure el Grup de Tasques AAPOR sobre Mostreig no probabilístic (Baker et al. 2013) , i també recomano llegir el comentari que segueix l'informe de síntesi.

Per una metaanàlisi sobre l'efecte de la ponderació per reduir el biaix en les mostres no probabilístiques, vegeu la Taula 2.4 en Tourangeau, Conrad, and Couper (2013) , que porta els autors a la conclusió "ajustos semblen ser útils, però les correccions fal·libles. . ".

  • Com demanar (Secció 3.5)

Conrad and Schober (2008) proporciona un volum editat titulat Preveient l'entrevista de l'enquesta del futur, i que aborda molts dels temes d'aquesta secció. Couper (2011) s'ocupa de temes similars, i Schober et al. (2015) ofereix un bon exemple de com els mètodes de recol·lecció de dades que s'adapten a un nou ajust poden resultar en dades de major qualitat.

Per un altre exemple interessant de l'ús d'aplicacions de Facebook per les enquestes de ciències socials, vegeu Bail (2015) .

Per obtenir més consells per fer enquestes una experiència agradable i valuosa per als participants, veure el treball en el Mètode de Disseny Tailored (Dillman, Smyth, and Christian 2014) .

Stone et al. (2007) ofereix un tractament longitud llibre d'avaluació ecològica momentània i mètodes relacionats.

  • Les enquestes enllaços a altres dades (Secció 3.6)

Judson (2007) va descriure el procés de combinació d'enquestes i dades administratives com "integració de la informació," tracta sobre alguns avantatges d'aquest enfocament, i ofereix alguns exemples.

Una altra forma en què els investigadors poden utilitzar les empremtes digitals i les dades administratives és un marc de mostreig per a les persones amb característiques específiques. No obstant això, accedir a aquests registres a utilitzar un marc de mostreig també pot crear preguntes relacionades amb la privacitat (Beskow, Sandler, and Weinberger 2006) .

Pel que fa a preguntar amplificada, aquest enfocament no és tan nou com podria semblar a com ho he descrit. Aquest enfocament té profundes connexions amb tres grans àrees de post-estratificació basada en estadístiques-model (Little 1993) , la imputació (Rubin 2004) , i l'estimació d'àrea petita (Rao and Molina 2015) . També es relaciona amb l'ús de variables de substitució en la investigació mèdica (Pepe 1992) .

A més de les qüestions ètiques relacionades amb l'accés a les dades de rastreig digitals, que demana amplificada també podria utilitzar-se per inferir els trets sensibles que la gent no pot triar a revelar en una enquesta (Kosinski, Stillwell, and Graepel 2013) .

Les estimacions de costos i temps en Blumenstock, Cadamuro, and On (2015) es refereixen més a la variable de cost el cost d'una enquesta costos addicionals i no inclouen fixos com ara el cost de netejar i processar les dades de les trucades. En general, demanant amplificada, probablement tindrà alts costos fixos i baixos costos variables similars als experiments digitals (vegeu el capítol 4). Més detalls sobre les dades utilitzades en Blumenstock, Cadamuro, and On (2015) el paper són en Blumenstock and Eagle (2010) i Blumenstock and Eagle (2012) . Enfocaments de múltiples imputuation (Rubin 2004) podrien ajudar a la incertesa en les estimacions de captura de demanar amplificat. Si els investigadors que fan amplifiquen demanant només es preocupen pels recomptes totals, en lloc de trets a nivell individual, es que els enfocaments de King and Lu (2008) i Hopkins and King (2010) poden ser útils. Per a més informació sobre els mètodes d'aprenentatge automàtic Blumenstock, Cadamuro, and On (2015) , vegeu James et al. (2013) (més introductòria) o Hastie, Tibshirani, and Friedman (2009) (més avançada). Un altre llibre de text d'aprenentatge automàtic popular és Murphy (2012) .

Pel que fa a preguntar enriquida, els resultats en Ansolabehere i Hersh (2012) frontissa en dos passos fonamentals: 1) la capacitat de Catalist combinar moltes fonts de dades dispars per produir un arxiu de dades principal precís i 2) la capacitat de Catalist per enllaçar les dades de l'enquesta de el seu arxiu de dades principal. Per tant, Ansolabehere i Hersh comprovar cada un d'aquests passos amb cura.

Per crear el fitxer de dades principal, Catalist combina i harmonitza la informació de moltes fonts diferents, incloent: múltiples registres de votació instantànies de cada estat, les dades de Nacional de Canvi de Direcció de Registre de l'Oficina de Correus, i dades d'altres proveïdors comercials no especificats. Els detalls morbosos sobre com succeeix tot això de neteja i fusió estan més enllà de l'abast d'aquest llibre, però aquest procés, tant i fa tan acurat, es propagaran els errors en les fonts de dades originals i introduiran errors. Encara Catalist estava disposat a discutir el seu tractament de la informació i proporcionar algunes de les seves dades en brut, que era simplement impossible per als investigadors per revisar tot el canal de dades Catalist. Més aviat, els investigadors estaven en una situació en què l'arxiu de dades Catalist tenia algun desconegut, i potser impossible de conèixer, la quantitat d'error. Aquesta és una greu preocupació perquè un crític podria especular que les grans diferències entre els informes de les enquestes sobre el CCES i el comportament a l'arxiu de dades mestres Catalist van ser causats per errors a l'arxiu de dades mestres, no per les declaracions incorrectes pels enquestats.

Ansolabehere i Hersh van prendre dos enfocaments diferents per abordar la preocupació de qualitat de les dades. En primer lloc, a més de comparar la votació d'auto-informe de la votació a l'arxiu mestre Catalist, els investigadors també van comparar les parts d'auto-informe, la raça, l'estat de registre de votants (per exemple, registrats o no registrats) i el mètode de votació (per exemple, en persona, en absència votació, etc.) als valors trobats en les bases de dades Catalist. Per aquestes quatre variables demogràfiques, els investigadors van trobar nivells molt més alts d'acord entre informe de l'enquesta i les dades a l'arxiu mestre Catalist que per a la votació. Per tant, l'arxiu de dades mestres Catalist sembla tenir informació d'alta qualitat per als trets diferents de votació, el que suggereix que no és de mala qualitat general. En segon lloc, en part, utilitzant les dades de Catalist, Ansolabehere i Hersh van desenvolupar tres mesures diferents de qualitat dels registres de votació del comtat, i van trobar que la taxa estimada d'excés d'informació de la votació va ser essencialment sense relació amb cap d'aquestes mesures de qualitat de dades, una troballa que suggereixen que les altes taxes d'excés d'informació no estan sent impulsats pels comtats amb inusualment baixa qualitat de les dades.

Tenint en compte la creació d'aquest arxiu principal de votants, la segona font d'errors potencials és la vinculació dels registres de l'enquesta a la mateixa. Per exemple, si aquesta vinculació es realitza de forma incorrecta podria donar lloc a una sobreestimació de la diferència entre el comportament de vot presentat i validat (Neter, Maynes, and Ramanathan 1965) . Si cada persona tenia un estable identificador, únic que hi havia a les dues fonts de dades, a continuació, la vinculació seria trivial. En els altres països d'Estats Units i la majoria, però, no hi ha cap identificació universal. A més, fins i tot si hi hagués un identificador tals persones probablement serien reticents a proporcionar als investigadors estudiar! Per tant, Catalist havia de fer la vinculació utilitzant identificadors imperfectes, en aquest cas quatre peces d'informació sobre cada enquestat: nom, sexe, any de naixement, i la direcció de casa seva. Per exemple, Catalist havia de decidir si l'Homie J Simpson al CCES era la mateixa persona que el Homer Jay Simpson en el seu arxiu de dades mestres. A la pràctica, la igualació és un procés difícil i complicat, i, per empitjorar les coses per als investigadors, Catalist considera la seva tècnica de joc per ser propietari.

Per tal de validar els algoritmes de correspondència, es van recolzar en dos desafiaments. En primer lloc, Catalist va participar en un concurs de coincidència que va ser dirigit per una tercera part independent: la MITRE Corporation. MITRE proporciona tots els participants dos arxius de dades sorollosos, que s'ajustarà, i diferents equips van competir per tornar a MITRE la millor coincidència. A causa de si MITRE sabia que el joc correcte que van ser capaços d'anotar els equips. De les 40 empreses que van competir, Catalist va quedar en segon lloc. Aquest tipus d'avaluació independent, de tercers de la tecnologia patentada és bastant rar i molt valuós; ens ha de donar la confiança que els procediments de concordança de Catalist són essencialment en l'estat de la tècnica. Però és l'estat de la tècnica és prou bo? A més d'aquesta competició a joc, Ansolabehere i Hersh van crear el seu propi desafiament a joc per Catalist. A partir d'un projecte anterior, Ansolabehere i Hersh havien recollit els registres de votants de la Florida. Es van proporcionar alguns d'aquests registres amb alguns dels seus camps redactada de manera que Catalist i després van comparar els informes d'aquests camps als seus valors reals de Catalist. Afortunadament, els informes de Catalist estaven a prop dels valors retinguts, el que indica que podria Catalist coincideix amb els registres de votants parcials en el seu arxiu de dades mestres. Aquests dos reptes, un per un tercer i un per Ansolabehere i Hersh, ens donen més confiança en els algoritmes de correspondència Catalist, tot i que no podem revisar la seva aplicació exacta nosaltres mateixos.

Hi ha hagut molts intents anteriors per validar la votació. Per a una visió general que la literatura, veure Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , i Hanmer, Banks, and White (2014) .

És important tenir en compte que, si bé en aquest cas, els investigadors van ser encoratjats per la qualitat de les dades de Catalist, altres avaluacions dels proveïdors comercials han estat menys entusiasta. Els investigadors han trobat mala qualitat quan les dades d'una enquesta a un consumidor-arxiu de màrqueting del Grup de Sistemes (que al seu torn es van fusionar les dades de tres proveïdors: Acxiom, Experian i InfoUSA) (Pasek et al. 2014) . És a dir, l'arxiu de dades no ha trobat respostes de l'enquesta que els investigadors esperaven que és correcta, l'arxiu de dades havia dades d'un gran nombre de preguntes, i el patró de les dades que falten desaparegut va ser correlacionada amb el valor enquesta informat (en altres paraules, les dades que falten va ser sistemàtica , no a l'atzar).

Per a més informació sobre registre de vinculació entre les enquestes i les dades administratives, consulteu Sakshaug and Kreuter (2012) i Schnell (2013) . Per a més informació sobre vinculació de registres en general, vegeu Dunn (1946) i Fellegi and Sunter (1969) (històric) i Larsen and Winkler (2014) (moderna). Enfocaments similars també s'han desenvolupat a la informàtica sota els noms, com la deduplicació de dades, la identificació exemple, la coincidència de nom, detecció de duplicats, i la detecció de duplicats registre (Elmagarmid, Ipeirotis, and Verykios 2007) . També hi ha privacitat preservar enfocaments per registrar la vinculació que no requereixen la transmissió d'informació d'identificació personal (Schnell 2013) . Els investigadors en Facebook van desenvolupar un procediment per vincular probabilisticsly seus registres al comportament electoral (Jones et al. 2013) ; aquesta vinculació es realitza per avaluar un experiment que us explicaré en el capítol 4 (Bond et al. 2012) .

Un altre exemple de la vinculació d'una enquesta social a gran escala als registres administratius del govern prové de l'Enquesta de Salut i Jubilació i l'Administració de Seguretat Social. Per a més informació sobre aquest estudi, incloent informació sobre el procediment de consentiment, vegeu Olson (1996) i Olson (1999) .

El procés de combinar moltes fonts de registres administratius en un fitxer de dades mestre-el procés que Catalist empleats-és comú en les oficines d'estadística d'alguns governs nacionals. Dos investigadors d'Estadística de Suècia han escrit un llibre detallat sobre el tema (Wallgren and Wallgren 2007) . Per veure un exemple d'aquest enfocament en un sol comtat en els Estats Units (Comtat de Olmstead, Minnesota, la llar de la Clínica Mayo), veure Sauver et al. (2011) . Per a més informació sobre els errors que poden aparèixer en els registres administratius, consulteu Groen (2012) .