3.4.3 Les mostres no probabilístiques: coincidència de la mostra

No totes les mostres no probabilístiques són els mateixos. Podem afegir més control a la part davantera.

L'enfocament Wang i els seus col·legues van utilitzar per estimar el resultat de l'elecció presidencial dels Estats Units 2012 depenien enterament de les millores en l'anàlisi de dades. És a dir, que recullen tantes respostes com van poder i després van tractar de tornar a ponderar ells. Una estratègia complementària per a treballar amb el mostreig no probabilístic és tenir un major control sobre el procés de recol·lecció de dades.

L'exemple més simple d'un procés de mostreig no probabilístic parcialment controlat és el mostreig per quotes, una tècnica que es remunta als primers dies de la investigació de l'enquesta. En el mostreig per quotes, els investigadors divideixen la població en diferents grups (per exemple, els homes joves, dones joves, etc.) i les quotes a continuació, ajust per al nombre de persones a ser seleccionada en cada grup. Els enquestats són seleccionats d'una manera casual fins que l'investigador ha complert amb la seva quota en cada grup. A causa de les quotes, la mostra resultant s'assembla més a la població diana del que seria cert el contrari, sinó perquè les probabilitats d'inclusió es desconeixen molts investigadors són escèptics de mostreig per quotes. De fet, el mostreig per quotes va ser una de les causes de la "Dewey derrota a Truman" error en les enquestes presidencials als Estats Units 1948. A causa que proporciona algun control sobre el procés de mostreig, però, es pot veure com el mostreig per quotes podria tenir alguns avantatges sobre una col·lecció de dades completament incontrolada.

Anant més enllà de mostreig per quotes, els enfocaments més moderns per al control del procés de mostreig no probabilístic són ara possibles. Un d'ells es diu joc de la mostra i és usat per alguns proveïdors comercials panell en línia. En la seva forma més simple la comparació de mostres requereix dues fonts de dades: 1) un registre complet de la població i 2) un gran grup de voluntaris. És important que els voluntaris no necessiten ser una mostra de probabilitat de qualsevol població; fer èmfasi que no hi ha requisits per a la selecció en el panell, el trucaré un panell brut. A més, tant el registre de la població i el panell bruta han d'incloure alguna informació auxiliar sobre cada persona, en aquest exemple, vaig a considerar l'edat i el sexe, però en situacions realistes aquesta informació auxiliar podria ser molt més detallada. El truc de la coincidència de la mostra és seleccionar mostres d'un panell brut d'una manera que produeix mostres que es veuen com a mostres de probabilitat.

coincidència de la mostra comença quan una mostra de probabilitat simulada es pren del registre de la població; aquesta mostra simulada es converteix en una mostra objectiu. Després, basant-se en la informació auxiliar, casos de la mostra diana es fan coincidir amb les persones en el panell brut per formar una mostra aparellada. Per exemple, si hi ha una dona de 25 anys d'edat de la mostra objectiu, llavors l'investigador ha una dona de 25 anys des del panell bruta per estar a la mostra aparellada. Finalment, els membres de la mostra aparellada són entrevistats per produir el conjunt final dels enquestats.

Tot i que la mostra aparellada sembla que l'objectiu de la mostra, és important recordar que la mostra equivalent no és una mostra de probabilitat. diferents mostres només poden coincidir amb l'objectiu de la mostra sobre la informació auxiliar conegut (per exemple, l'edat i el sexe), però no en característiques no mesures. Per exemple, si la gent en el panell brut tendeixen a ser més pobres, després de tot, una de les raons per unir-se a un panell d'enquestes és guanyar diners, llavors fins i tot si la mostra aparellada sembla que l'objectiu de la mostra en funció de l'edat i el sexe encara tindrà un biaix cap als pobres. La màgia del veritable mostreig probabilístic és per descartar problemes en ambdues característiques mesures i no mesures (un punt que és consistent amb la nostra discussió de joc per a la inferència causal a partir d'estudis observacionals en el capítol 2).

A la pràctica, a joc de la mostra depèn de tenir un panell gran i divers ansiós per completar enquestes, i per tant es fa principalment per empreses que poden permetre el luxe de desenvolupar i mantenir un panell d'aquest tipus. A més, en la pràctica, pot haver-hi problemes amb el joc (de vegades un bon partit per a algú en la mostra objectiu no existeix en el panell) i la manca de resposta (de vegades la gent a la mostra aparellada es neguen a participar en l'enquesta). Per tant, en la pràctica, els investigadors que fan joc mostra també duen a terme algun tipus d'ajust posterior a l'estratificació de fer estimacions.

És difícil donar garanties teòriques útils sobre el joc de la mostra, però en la pràctica pot funcionar bé. Per exemple, Stephen Ansolabehere i Brian Schaffner (2014) van comparar tres enquestes paral·leles de prop de 1.000 persones dutes a terme el 2010 utilitzant tres mostres diferents i mètodes d'entrevista: correu electrònic, telèfon, i un panell d'Internet mitjançant la comparació de la mostra i l'ajust posterior a l'estratificació. Les estimacions dels tres enfocaments eren bastant similars a les estimacions dels punts de referència d'alta qualitat com ara la Current Population Survey (CPS) i l'Enquesta Nacional de Salut (ENS). Més específicament, les enquestes d'Internet i de correu estaven fora en una mitjana de 3 punts percentuals i l'enquesta telefònica va ser de 4 punts percentuals. Els errors d'aquesta mida són aproximadament el que es podria esperar a partir de mostres d'al voltant de 1.000 persones. Tot i que cap d'aquestes maneres produïts substancialment millors dades, tant l'enquesta d'Internet i el telèfon (que va prendre dies o setmanes) van ser substancialment més ràpid que el camp de l'enquesta per correu (que va trigar vuit mesos), i l'enquesta d'Internet, que utilitza a joc de la mostra, era més barat que els altres dos maneres.

En conclusió, els científics socials i els estadístics són molt escèptics d'inferències a partir d'aquestes mostres no probabilístiques, en part perquè s'associen amb algunes fallades enutjosos de la investigació per enquestes com l'enquesta de resum literari. En part, estic d'acord amb aquest escepticisme: les mostres no probabilístiques no ajustats són susceptibles de produir mals càlculs. No obstant això, si els investigadors poden ajustar els biaixos en el procés de mostreig (per exemple, després de l'estratificació) o controlar el procés de mostreig alguna cosa (per exemple: correspondència de la mostra), que pot produir millors estimacions, i fins i tot les estimacions de qualitat suficient per a la majoria dels propòsits. Per descomptat, seria millor que fer el mostreig probabilístic executat a la perfecció, però que ja no sembla ser una opció realista.

Les dues mostres no probabilístiques i les mostres de probabilitat varien en la seva qualitat, i en l'actualitat és probable que el cas que la majoria de les estimacions de les mostres de probabilitat són més fiables que les estimacions de les mostres no probabilístiques. Però, fins i tot ara, les estimacions de les mostres no probabilístiques ben realitzats són probablement millors que les estimacions de mostres de probabilitat realitzades malament. A més, les mostres no probabilístiques són substancialment més barat. Per tant, sembla que la probabilitat vs mostreig no probabilístic ofereix una relació cost-qualitat disjuntiva (Figura 3.6). Mirant cap al futur, espero que les estimacions de les mostres no probabilístiques ben fet es tornaran més barat i millor. A més, a causa de la ruptura de les enquestes de telefonia fixa i l'augment de les taxes de no resposta, espero que les mostres de probabilitat seran més cars i de menor qualitat. A causa d'aquestes tendències a llarg termini, crec que el mostreig no probabilístic serà cada vegada més important en la tercera era de la investigació de l'enquesta.

Figura 3.6: El mostreig probabilístic en la pràctica i el mostreig no probabilístic són els dos grans categories, heterogenis. En general, hi ha un cost d'errors disjuntiva de ser el mostreig no probabilístic cost menor però major error. No obstant això, el mostreig no probabilístic ben fet pot produir millors estimacions que el mostreig probabilístic es fa malament. En el futur, espero que el mostreig no probabilístic serà millor i més barat, mentre que el mostreig probabilístic es posarà pitjor i més car.

Figura 3.6: El mostreig probabilístic en la pràctica i el mostreig no probabilístic són els dos grans categories, heterogenis. En general, hi ha un cost d'errors disjuntiva de ser el mostreig no probabilístic cost menor però major error. No obstant això, el mostreig no probabilístic ben fet pot produir millors estimacions que el mostreig probabilístic es fa malament. En el futur, espero que el mostreig no probabilístic serà millor i més barat, mentre que el mostreig probabilístic es posarà pitjor i més car.