3.4 Tko pitati

Ovaj prijevod je stvoren od strane računala. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4 Tko pitati

Vjerojatnost uzorci i uzorci nisu vjerojatnosti su ne razlikuje u praksi; u oba slučaja, to je sve o utega.

Uzorkovanje je temeljna anketama. Istraživači gotovo nikad ne traže od svojih pitanja za sve u svoje ciljne populacije. U tom smislu, ankete nisu jedinstveni. Većina istraživanja, na ovaj ili onaj način, uključuje uzorkovanje. Ponekad Uzorkovanje se obavlja izravno od strane istraživača; drugi puta se dogodi implicitno. Na primjer, istraživač koji radi laboratorijskog istraživanja na studente u svom sveučilištu također je uzeti uzorak. Dakle, uzorkovanje je problem koji dolazi u ovoj knjizi. U stvari, jedan od najčešćih pitanja koje čujem o digitalnim izvorima starost podataka "oni nisu reprezentativni." Kao što ćemo vidjeti u ovom odsjeku, ovaj problem je i manje ozbiljne i suptilnije nego što mnogi skeptici realizirati. U stvari, ja ću reći da je cijeli koncept "reprezentativnosti" nije od pomoći za razmišljanje o vjerojatnosti i ne-vjerojatnosti uzoraka. Umjesto toga, ključ je razmišljati o tome kako se podaci prikupljaju i kako bilo pristranosti u toj prikupljanje podataka može se poništiti prilikom procjene.

Trenutno dominantni teorijski pristup reprezentacije uzorkovanja vjerojatnosti. Kada se podaci prikupljaju metodom vjerojatnosti uzorkovanja koja je savršeno izvršene, istraživači su mogli težine svoje podatke na temelju načina na koji su prikupljeni kako bi nepristrane procjene o ciljanoj populaciji. Međutim, pogodno za uzorkovanje vjerojatnost zapravo nikada ne događa u stvarnom svijetu. Tu su obično dva glavna problema 1) razlike između ciljne populacije i okvirnu stanovništvo i 2) ne-odgovor (to su upravo problemi koje uništio Literary Digest ankete). Dakle, umjesto da razmišljate o uzorkovanju vjerojatnosti kao realan model što se zapravo događa u svijetu, to je bolje razmišljati o uzorkovanju vjerojatnosti kao koristan, apstraktna modela, baš kao i način na koji fizičari misle o frictionless loptu valjanje niz beskonačno dugo rampa.

Alternativa uzorkovanja vjerojatnosti je uzorkovanje ne vjerojatnosti. Glavna razlika između vjerojatnosti i uzorkovanja nisu vjerojatnost je da s vjerojatnosti uzorkovanja svima u populaciji je poznata vjerojatnost uključivanja. Tu su, u stvari, mnoge vrste uzorkovanja nisu vjerojatnosti, a te metode prikupljanja podataka su sve češći u digitalnom dobu. No, uzorkovanje ne vjerojatnost ima strašnu reputaciju među društvenim znanstvenicima i statističari. U stvari, uzorkovanje ne vjerojatnost povezana s nekim od najdramatičnijih neuspjeha istraživača istraživanja, kao što su Književna Digest fijasko (ranije objašnjeno) i pogrešnog predviđanja o američkim predsjedničkim izborima 1948. godine ( "Dewey pobijedio Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .

No, je li u redu da se preispita uzorkovanje ne vjerojatnosti iz dva razloga vrijeme. Prvo, kao što su uzorci vjerojatnosti postaju sve teže raditi u praksi, linija između uzoraka vjerojatnosti i uzoraka koji nisu vjerojatnost zamućenja. Kada postoje visoke stope neodaziva (kao što postoji u stvarnim istraživanjima sada), stvarna vjerojatnost inkluzija za ispitanika nisu poznati, a time, uzorci vjerojatnost i uzorci nisu vjerojatnosti nisu toliko različiti kao mnogi istraživači vjeruju. U stvari, kao što ćemo vidjeti u nastavku, oba pristupa u osnovi se oslanjaju na istom metodom procjene: post-raslojavanja. Drugo, bilo je mnogo kretanja u prikupljanje i analizu uzoraka nisu vjerojatnosti. Ove metode su dovoljno različiti od metoda koja je uzrokovala probleme u prošlosti da mislim da ima smisla razmišljati o njima kao "ne-vjerojatnosti uzorkovanja 2.0." Mi ne bi trebali imati iracionalan averziju prema metodama bez vjerojatnosti zbog grešaka koje su se dogodile davno.

Dalje, kako bi ovaj argument konkretniji, ja ću pregledati standardne vjerojatnosti uzimanje uzoraka i težine (odjeljak 3.4.1). Ključna ideja je da kako ste prikupili podatke treba utjecati kako napraviti procjene. Konkretno, ako svatko nema istu vjerojatnost uključivanja, onda svatko ne bi trebali imati istu težinu. Drugim riječima, ako je vaš uzorkovanje nije demokratska, a zatim svoje procjene ne bi trebao biti demokratski. Nakon pregleda težine, ja ću opisati dva pristupa za uzorkovanje ne vjerojatnosti: onaj koji se usredotočuje na ponderiranja za rješavanje problema slučajno prikupljenih podataka (Odjeljak 3.4.2), i onaj koji pokušava staviti veću kontrolu nad tome kako su podaci prikupljaju (točka 3.4.3). Argumenti u glavnom tekstu će biti objašnjeno u nastavku s riječima i slikama; čitatelji koji žele više matematički tretman treba vidjeti i tehničku prilog.