3.4 A qui preguntar

L'era digital fa que el mostreig de probabilitats sigui pràcticament més difícil i està creant noves oportunitats per al mostreig no probabilístic.

En la història del mostreig, hi ha hagut dos enfocaments competitius: mètodes de mostreig de probabilitat i mètodes de mostreig no probables. Encara que els dos enfocaments es van utilitzar en els primers temps del mostreig, el mostreig de probabilitat ha arribat a dominar, i molts investigadors socials se'ls ensenya a veure el mostreig no probabilístic amb gran escepticisme. Tanmateix, com es descriurà a continuació, els canvis creats per l'era digital signifiquen que és hora que els investigadors reconsiderin el mostreig no probabilístic. En particular, el mostreig de probabilitat s'ha fet difícil a la pràctica, i el mostreig no probabilístic ha estat més ràpid, més barat i millor. Les enquestes més barates i més barates no són només finalitats: permeten noves oportunitats, com enquestes més freqüents i mides de mostra més grans. Per exemple, mitjançant l'ús de mètodes que no siguin de probabilitat, l'Estudi de la Conferència Cooperativa d'Eleccions (CCES) pot tenir aproximadament 10 vegades més participants que estudis anteriors mitjançant el mostreig de probabilitat. Aquesta mostra molt més gran permet als investigadors polítics estudiar la variació de les actituds i el comportament entre els subgrups i els contextos socials. A més, tota aquesta escala addicional va venir sense disminuir la qualitat de les estimacions (Ansolabehere and Rivers 2013) .

Actualment, l'enfocament dominant del mostreig per a la investigació social és el mostreig de probabilitat . En sampling de probabilitat, tots els membres de la població objectiu tenen una probabilitat coneguda i no cita de ser mostrada, i totes les persones que es mostren responen a l'enquesta. Quan es compleixen aquestes condicions, els resultats matemàtics elegants ofereixen garanties demostrades sobre la capacitat d'un investigador d'utilitzar la mostra per fer inferències sobre la població objectiu.

Tanmateix, al món real, les condicions que subyacen a aquests resultats matemàtics poques vegades es compleixen. Per exemple, sovint hi ha errors de cobertura i no resposta. A causa d'aquests problemes, els investigadors sovint han d'emprar una sèrie d'ajustaments estadístics per fer inferència de la seva mostra a la seva població objectiu. Per tant, és important distingir entre el mostreig de probabilitat en teoria , que té fortes garanties teòriques i el mostreig de probabilitats a la pràctica , que no ofereix cap garantia i depèn d'una varietat d'ajustaments estadístics.

Amb el temps, les diferències entre el mostreig de probabilitat en teoria i el mostreig de probabilitat en la pràctica han anat augmentant. Per exemple, les taxes de no resposta han anat augmentant constantment, fins i tot en enquestes d'alta qualitat i costoses (figura 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Les taxes de no-resposta són molt superiors a les enquestes telefòniques comercials -algunes vegades fins al 90% (Kohut et al. 2012) . Aquests augments en la no resposta amenacen la qualitat de les estimacions perquè les estimacions depenen cada vegada més dels models estadístics que els investigadors fan servir per ajustar-se a la no resposta. A més, aquestes disminucions de qualitat s'han produït malgrat els esforços cada vegada més costosos dels investigadors de l'enquesta per mantenir altes taxes de resposta. Algunes persones temen que aquestes tendències bessones de disminució de la qualitat i un cost creixent amenacen la fundació de la investigació d'enquestes (National Research Council 2013) .

Figura 3.5: La no resposta ha estat cada vegada més constant, fins i tot en enquestes cares de gran qualitat (National Research Council 2013, B. D. Meyer, Mok i Sullivan 2015). Les taxes de no resposta són molt superiors a les enquestes de telèfons comercials, de vegades fins al 90% (Kohut et al., 2012). Aquestes tendències a llarg termini en la no resposta fan que la recopilació de dades sigui més costosa i que les estimacions siguin menys fiables. Adaptat per B. D. Meyer, Mok i Sullivan (2015), figura 1.

Figura 3.5: La resposta no ha estat cada vegada més constant, fins i tot en enquestes de gran qualitat (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Les taxes de no resposta són molt superiors a les enquestes de telèfons comercials, de vegades fins al 90% (Kohut et al. 2012) . Aquestes tendències a llarg termini en la no resposta fan que la recopilació de dades sigui més costosa i que les estimacions siguin menys fiables. Adaptat per BD Meyer, Mok, and Sullivan (2015) , figura 1.

Al mateix temps que hi ha hagut creixents dificultats per als mètodes de mostreig de probabilitat, també s'han produït novetats interessants en els mètodes de mostreig no probables . Hi ha una varietat d'estils de mètodes de mostreig no probables, però el que tenen en comú és que no poden ajustar-se fàcilment al marc matemàtic de mostreig de probabilitat (Baker et al. 2013) . En altres paraules, en els mètodes de mostreig no probables no tothom té una probabilitat d'inclusió coneguda i no cero. Els mètodes de mostreig no probabilitat tenen una reputació terrible entre els investigadors socials i estan associats amb alguns dels fracassos més dramàtics dels investigadors de l'enquesta, com el fiasco Literary Digest (esmentat anteriorment) i "Dewey Defeats Truman", la predicció incorrecta sobre els EUA Eleccions presidencials de 1948 (figura 3.6).

Figura 3.6: El president Harry Truman sosté el titular d'un periòdic que havia anunciat incorrectament la seva derrota. Aquest títol es va basar en part en estimacions de mostres no probables (Mosteller 1949; Bean 1950; Freedman, Pisani i Purves 2007). Tot i que Dewey derrota a Truman el 1948, encara està entre la raó que alguns investigadors són escèptics sobre les estimacions de mostres no probables. Font: Biblioteca i Museu Harry S. Truman.

Figura 3.6: El president Harry Truman sosté el titular d'un periòdic que havia anunciat incorrectament la seva derrota. Aquest títol es va basar en part en estimacions de mostres no probables (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Encara que "Dewey derrota a Truman" va succeir el 1948, continua sent una de les raons que alguns investigadors són escèptics sobre les estimacions de mostres no probables. Font: Biblioteca i Museu Harry S. Truman .

Una forma de mostreig no probabilístic que és particularment adequada a l'era digital és l'ús de panells en línia . Els investigadors que utilitzen panells en línia depenen d'algun proveïdor del panell -en general d'una empresa, govern o universitat- per construir un gran grup de gent que accepta servir com a enquestats per a enquestes. Aquests participants del tauler són sovint recrutats utilitzant diversos mètodes ad hoc, com ara anuncis de bàner en línia. A continuació, un investigador pot pagar al proveïdor del panell per obtenir accés a una mostra d'enquestats amb les característiques desitjades (per exemple, representants nacionals d'adults). Aquests panells en línia són mètodes que no són de probabilitat perquè no tothom té una probabilitat d'inclusió coneguda i no cero. Encara que els investigadors socials (com ara el CCES) ja utilitzen panells en línia sense probabilitat, encara hi ha un debat sobre la qualitat de les estimacions que se'n deriven (Callegaro et al. 2014) .

Malgrat aquests debats, crec que hi ha dues raons per les quals és el moment adequat perquè els investigadors socials reconsiderin el mostreig no probabilístic. En primer lloc, en l'era digital, s'han produït nombrosos desenvolupaments en la recollida i anàlisi de mostres no probables. Aquests mètodes més nous són prou diferents dels mètodes que van causar problemes en el passat que crec que té sentit pensar-los com "mostreig no probabilístic 2.0". La segona raó per la qual els investigadors han de reconsiderar el mostreig no probabilístic és perquè el mostreig de probabilitats en la pràctica es fa cada vegada més difícil. Quan hi ha altes taxes de no resposta, com en les enquestes reals ara, no es coneixen les probabilitats reals d'inclusió dels enquestats i, per tant, les mostres de probabilitat i les mostres no probables no són tan diferents com molts investigadors creuen.

Com he dit abans, moltes mostres no probables es veuen amb un gran escepticisme per part de molts investigadors socials, en part a causa del seu paper en alguns dels fracassos més vergonyosos en els primers dies de la investigació de l'enquesta. Un exemple clar de fins a quin punt hem arribat amb mostres de no probabilitat és la investigació de Wei Wang, David Rothschild, Sharad Goel i Andrew Gelman (2015) que van recuperar correctament el resultat de les eleccions dels EUA 2012 mitjançant una mostra de no probabilitat Usuaris americans de Xbox: una mostra decididament no aleatòria d'americans. Els investigadors van reclutar als enquestats del sistema de jocs de XBox i, com és d'esperar, la mostra de Xbox esbiaixava homes joves i esbiaixats: els de 18 a 29 anys eren el 19% dels electors, però el 65% de la mostra de Xbox i els homes componen el 47% de l'electorat, però el 93% de la mostra de Xbox (figura 3.7). A causa d'aquests biaixos demogràfics forts, les dades de Xbox crues van ser un indicador pobre de les rendibilitats electorals. Va predir una forta victòria per Mitt Romney sobre Barack Obama. Un cop més, aquest és un altre exemple dels perills de les mostres no probables i no aleatòries, i recorda el fiasco de Literary Digest .

Figura 3.7: Dades demogràfiques dels enquestats a W. Wang et al. (2015). Com que els enquestats van ser reclutats a XBox, van ser més propensos a ser joves i més propensos a ser homes, en relació amb els votants en les eleccions de 2012. Adaptat per W. Wang et al. (2015), figura 1.

Figura 3.7: Dades demogràfiques dels enquestats a W. Wang et al. (2015) . Com que els enquestats van ser reclutats a XBox, van ser més propensos a ser joves i més propensos a ser homes, en relació amb els votants en les eleccions de 2012. Adaptat per W. Wang et al. (2015) , figura 1.

No obstant això, Wang i els seus col · legues van ser conscients d'aquests problemes i van intentar ajustar-se pel seu procés de mostreig no aleatori en fer estimacions. En particular, van utilitzar la postestratificació , una tècnica que també s'utilitza àmpliament per ajustar mostres de probabilitat que tenen errors de cobertura i no resposta.

La idea principal de la postestratificació és utilitzar informació auxiliar sobre la població objectiu per ajudar a millorar l'estimació que prové d'una mostra. Quan utilitzaven la postestratificació per fer estimacions de la seva mostra de no probabilitat, Wang i el seu col·lega van dividir la població en diferents grups, van estimar el suport per a Obama en cada grup i, després, van obtenir una mitjana ponderada de les estimacions del grup per produir una estimació global. Per exemple, podrien haver dividit la població en dos grups (homes i dones), estimar el suport a Obama entre homes i dones, i després estimar el suport global per a Obama prenent una mitjana ponderada per explicar que les dones fan el 53% dels electors i els homes el 47%. Aproximadament, la postestratificació ajuda a corregir una mostra desequilibrada aportant informació auxiliar sobre les mides dels grups.

La clau de la postestratificació és formar els grups adequats. Si pot reduir la població en grups homogenis, de manera que les propensions de resposta siguin iguals per a tots els de cada grup, llavors la postestratificació produirà estimacions imparcials. En altres paraules, la postratatització per gènere produirà estimacions imparcials si tots els homes tenen la propensió de resposta i totes les dones tenen la mateixa propensió de resposta. Aquesta hipòtesi s'anomena suposició homogènia-resposta-propensió-dins dels grups , i la descriu una mica més en les notes matemàtiques al final d'aquest capítol.

Per descomptat, sembla poc probable que les propensions de resposta siguin iguals per a tots els homes i totes les dones. Tanmateix, la hipòtesi homogènia-resposta-propensió-dins dels grups es fa més plausible a mesura que augmenta el nombre de grups. Aproximadament, resulta més fàcil reduir la població en grups homogenis si es creen més grups. Per exemple, pot semblar implausible que totes les dones tinguin la mateixa propensió de resposta, però pot semblar més plausible que hi hagi la mateixa propensió de resposta a totes les dones que tenen entre 18 i 29 anys, que es graduen de la universitat i que viuen a Califòrnia . Per tant, a mesura que augmenta el nombre de grups utilitzats en la postestratificació, els supòsits necessaris per donar suport al mètode es fan més raonables. Tenint en compte aquest fet, els investigadors sovint volen crear un gran nombre de grups per a la postestratificació. Tanmateix, a mesura que augmenta el nombre de grups, els investigadors tenen un problema diferent: la dispersió de dades. Si només hi ha un nombre reduït de persones a cada grup, les estimacions seran més incertes i, en el cas extrem en què hi hagi un grup que no tingui cap enquestat, la postestratificació es descompon completament.

Hi ha dues maneres d'abandonar aquesta tensió inherent entre la plausibilitat de la hipòtesi homogènia-resposta-propensió-dins dels grups i la demanda de mides de mostra raonables en cada grup. En primer lloc, els investigadors poden recollir una mostra més àmplia i més àmplia, que ajuda a garantir mides de mostra raonables en cada grup. En segon lloc, poden utilitzar un model estadístic més sofisticat per fer estimacions en grups. I, de fet, de vegades els investigadors fan tots dos, com van fer Wang i els seus col·legues amb el seu estudi de les eleccions utilitzant als enquestats de Xbox.

Atès que estaven utilitzant un mètode de mostreig sense probabilitat amb entrevistes administrats per ordinador (parlaré més sobre les entrevistes administrades per ordinador a la secció 3.5), Wang i els seus col·legues tenien una recollida de dades molt econòmica, que els va permetre recollir informació de 345,858 participants únics , un gran nombre per les normes de votació electoral. Aquesta grandària massiva de mostres els va permetre formar una gran quantitat de grups postestratificació. Mentre que la postestratificació sol implicar el bloqueig de la població en centenars de grups, Wang i els seus col·legues van dividir la població en 176,256 grups definits per gènere (2 categories), raça (4 categories), edat (4 categories), educació (4 categories), estat (51 categories), ID del partit (3 categories), ideologia (3 categories), i vot de 2008 (3 categories). En altres paraules, la seva grandària de mostra enorme, que va ser habilitada per la recopilació de dades de baix cost, els va permetre fer una suposició més plausible en el seu procés d'estimació.

Tanmateix, fins i tot amb 345.858 participants únics, encara hi havia molts i molts grups per als quals Wang i els seus col·legues no tenien gairebé cap enquestat. Per tant, van utilitzar una tècnica anomenada regressió multinivell per estimar el suport de cada grup. Essencialment, per estimar el suport a Obama dins d'un grup específic, la regressió multinivell agrupava la informació de molts grups estretament relacionats. Per exemple, imagineu tractar d'estimar el suport per a Obama entre les dones hispanes d'entre 18 i 29 anys, que són graduats universitaris, que són Demòcrates registrats, que s'identifiquen com a moderats i que van votar a favor d'Obama el 2008. Això és molt , grup molt específic, i és possible que no hi hagi ningú a la mostra amb aquestes característiques. Per tant, per fer estimacions sobre aquest grup, la regressió de diversos nivells utilitza un model estadístic per agrupar estimacions de persones de grups molt similars.

D'aquesta manera, Wang i els seus col·legues van utilitzar un enfocament que combinava la regressió i la postratratación de diversos nivells, de manera que van cridar la seva estratègia de regressió multinivell amb postestratificació o, més afectuosa, "Mr. P. "Quan Wang i els seus companys van utilitzar el Sr. P. per fer estimacions de la mostra de no probabilitat de XBox, van produir estimacions molt properes al suport global que Obama va rebre en les eleccions de 2012 (figura 3.8). De fet, les seves estimacions eren més precises que un conjunt d'enquestes d'opinió pública tradicionals. Així, en aquest cas, els ajustaments estadístics, específicament el Sr. P., semblen fer un bon treball corregint els biaixos en dades de no probabilitat; biaixos que eren clarament visibles quan es miraven les estimacions de les dades de Xbox no ajustats.

Figura 3.8: Estimacions de W. Wang et al. (2015). L'exemple de XBox no ajustat produïa estimacions inexactes. Tanmateix, la mostra ponderada de XBox va produir estimacions que eren més precises que una mitjana d'enquestes telefòniques basades en probabilitats. Adaptat per W. Wang et al. (2015), xifres 2 i 3.

Figura 3.8: Estimacions de W. Wang et al. (2015) . L'exemple de XBox no ajustat produïa estimacions inexactes. Tanmateix, la mostra ponderada de XBox va produir estimacions que eren més precises que una mitjana d'enquestes telefòniques basades en probabilitats. Adaptat per W. Wang et al. (2015) , xifres 2 i 3.

Hi ha dues lliçons principals de l'estudi de Wang i col·legues. En primer lloc, les mostres no probables no ajustades poden provocar mals estimacions; aquesta és una lliçó que molts investigadors han escoltat abans. La segona lliçó, però, és que les mostres no probables, quan s'analitzen correctament, poden produir bones estimacions; les mostres que no són de probabilitat no necessiten automàticament cap a alguna cosa semblant al fiasco de Literary Digest .

En endavant, si esteu intentant decidir entre utilitzar un enfocament de mostreig de probabilitat i un enfocament de mostreig no probabilístic, teniu una difícil elecció. De vegades els investigadors volen una regla ràpida i rígida (per exemple, sempre utilitzeu mètodes de mostreig de probabilitat), però cada vegada és més difícil oferir aquesta regla. Els investigadors s'enfronten a una difícil elecció entre els mètodes de mostreig de la probabilitat a la pràctica, que són cada vegada més costosos i lluny dels resultats teòrics que justifiquen el seu ús i mètodes de mostreig no probables, que són més barats i més ràpids, però menys familiars i més variats. Una cosa que queda clar, però, és que, si se li obliga a treballar amb mostres no probables o fonts de dades grans no representatives (pensi en el capítol 2), hi ha una raó forta per creure que les estimacions realitzades amb postratratificació i Les tècniques relacionades seran millors que no ajustades, estimacions primes.