ytterligere kommentarer

Denne oversettelsen ble skapt av en datamaskin. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

ytterligere kommentarer

Denne delen er utformet for å bli brukt som en referanse, i stedet for å bli lest som en fortelling.

Innledning (§ 3.1)

Mange av temaene i dette kapitlet har også blitt gjentatt i senere president adresser ved American Association of Public Opinion forskning (AAPOR), som Dillman (2002) , Newport (2011) , Santos (2014) , og Link (2015) .

For mer historisk bakgrunn om utviklingen av undersøkelsen forskning, se Smith (1976) og Converse (1987) . For mer om ideen om tre epoker av undersøkelsen forskning, se Groves (2011) og Dillman, Smyth, and Christian (2008) (som bryter opp de tre epoker litt annerledes).

En topp i overgangen fra den første til den andre epoken i undersøkelsen forskning er Groves and Kahn (1979) , som gjør en detaljert head-to-head sammenligning mellom en ansikt-til-ansikt og telefonundersøkelse. Brick and Tucker (2007) ser tilbake på den historiske utviklingen av tilfeldig tall oppringing prøvetakingsmetoder.

For mer hvordan undersøkelsen forskning har endret seg i det siste som følge av endringer i samfunnet, se Tourangeau (2004) , Mitofsky (1989) , og Couper (2011) .

Spør vs. observere (§ 3.2)

Lære om indre tilstander ved å stille spørsmål kan være problematisk fordi noen ganger respondentene selv er ikke klar over sine indre tilstander. For eksempel, Nisbett and Wilson (1977) har en fantastisk papir med den stemningsfulle tittelen: "Å fortelle mer enn vi kan vite. Muntlige rapporter om mentale prosesser" I avisen forfatterne konkluderer: "fagene er noen ganger (a) uvitende om eksistensen av en stimulus som viktigere påvirket en reaksjon, (b) klar over eksistensen av responsen, og (c) ikke klar over at den stimulus har påvirket respons. "

For argumentene som forskere bør foretrekker observert atferd til rapporterte atferd eller holdninger, se Baumeister, Vohs, and Funder (2007) (psykologi) og Jerolmack and Khan (2014) og svar (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (sosiologi). Forskjellen mellom å spørre og observere også oppstår i økonomi, der forskerne snakker om er oppgitt og avslørt preferanser. For eksempel kan en forsker spør respondentene om de foretrekker å spise iskrem eller gå til gym (oppgitt preferanser) eller forskningen kan observere hvor ofte folk spiser is og gå til gym (åpenbart preferanser). Det er dyp skepsis av visse typer oppgitt preferanser data i økonomi (Hausman 2012) .

Et hovedtema fra disse debattene er at rapporterte atferd er ikke alltid nøyaktig. Men, kan registreres automatisk atferd ikke være nøyaktig, kan ikke bli samlet på et utvalg av interesse, og kan ikke være tilgjengelig for forskere. Derfor, i noen situasjoner, tror jeg at rapporterte atferd kan være nyttig. Videre er en andre hovedtema fra disse debattene som rapporter om følelser, kunnskap, forventninger og meninger er ikke alltid nøyaktig. Men hvis informasjon om disse interne tilstander er nødvendig av forskere, enten for å forklare noen atferd eller som noe som skal forklares-så spør kan være hensiktsmessig.

Total undersøkelsen feil (punkt 3.3)

For boken lengde behandlinger på total undersøkelse feil, se Groves et al. (2009) eller Weisberg (2005) . For en historie om utviklingen av total undersøkelse feil, se Groves and Lyberg (2010) .

Når det gjelder representasjon, en flott introduksjon til problemene til manglende respons og non-respons bias er National Research Council rapport om nonresponse i Social Science Undersøkelser: A Research Agenda (2013) . En annen nyttig oversikt er gitt av (Groves 2006) . Også har hele spesielle utgaver av Journal of Official Statistics, Public Opinion Quarterly, og The Annals of American Academy of Political og Social Science blitt publisert om emnet for bortfall. Til slutt, det er faktisk mange forskjellige måter å beregne svarprosenten; disse metodene er beskrevet i detalj i en rapport av American Association of Public Opinion Forskere (AAPOR) (Public Opinion Researchers} 2015) .

Den 1936 Literary Digest meningsmåling har blitt studert i detalj (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Det har også blitt brukt som en lignelse for å advare mot tilfeldig datainnsamling (Gayo-Avello 2011) . I 1936, George Gallup brukt en mer sofistikert form for prøvetaking, og var i stand til å produsere mer nøyaktige estimater med et mye mindre utvalg. Gallups suksess over Literary Digest var en milepæl i utviklingen av undersøkelsen forskning (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .

Når det gjelder måling, en flott første ressurs for utforming av spørreskjemaer er Bradburn, Sudman, and Wansink (2004) . For en mer avansert behandling fokusert spesielt på holdningsspørsmål, se Schuman and Presser (1996) . Mer om pre-testing spørsmål er tilgjengelig i Presser and Blair (1994) , Presser et al. (2004) , og kapittel 8 Groves et al. (2009) .

Den klassiske, bok-lengde behandling av avveiningen mellom undersøkelseskostnader og undersøkelsen feil er Groves (2004) .

Hvem å spørre (punkt 3.4)

Klassiske bok-lengde behandling av standard sannsynlighetsutvalg og estimering er Lohr (2009) (mer innledende) og Särndal, Swensson, and Wretman (2003) (mer avansert). En klassisk bok-lengde behandling av post-stratifisering og relaterte metoder er Särndal and Lundström (2005) . I noen digitale alder innstillinger, forskerne vet ganske mye om ikke-respondenter, som ikke var ofte sant i det siste. Ulike former for ikke-respons justering er mulig når forskerne har informasjon om ikke-respondenter (Kalton and Flores-Cervantes 2003; Smith 2011) .

Xbox studie av Wang et al. (2015) bruker en teknikk som kalles multilevel regresjon og post-stratifisering (MRP, noen ganger kalt "Mister P") som gjør at forskere å anslå celle betyr at selv når det er mange, mange celler. Selv om det er noen debatt om kvaliteten på estimatene fra denne teknikken, det virker som et lovende område å utforske. Teknikken ble først brukt i Park, Gelman, and Bafumi (2004) , og det har vært etterbruk og debatt (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . For mer om sammenhengen mellom individuelle vekter og cellebaserte vekter se Gelman (2007) .

For andre tilnærminger til vekting web undersøkelser, se Schonlau et al. (2009) , Valliant and Dever (2011) , og Bethlehem (2010) .

Prøve matching ble foreslått av Rivers (2007) . Bethlehem (2015) argumenterer for at utførelsen av prøven søkeord vil faktisk være lik andre samplings tilnærminger (f.eks stratifisert sampling) og andre justerings tilnærminger (f.eks post-lagdeling). For mer om online paneler, se Callegaro et al. (2014) .

Noen ganger har forskere funnet ut at sannsynlighetsutvalg og ikke-sannsynlighetsutvalg gi estimater av tilsvarende kvalitet (Ansolabehere and Schaffner 2014) , men andre sammenligninger har funnet ut at ikke-sannsynlighetsutvalg gjøre verre (Malhotra and Krosnick 2007; Yeager et al. 2011) . En mulig årsak til disse forskjellene er at ikke-sannsynlighetsutvalg har bedret seg over tid. For et mer pessimistisk syn på ikke-sannsynlighets prøvetakings- se den AAPOR Task Force on Non-sannsynlighetsutvalg (Baker et al. 2013) , og jeg anbefaler også å lese kommentaren som følger sammendragsrapport.

For en meta-analyse på effekten av vekting for å redusere skjevhet i ikke-sannsynlighetsutvalg, se tabell 2.4 i Tourangeau, Conrad, and Couper (2013) , noe som fører forfatterne til å konkludere med "justeringer synes å være nyttige, men feilbarlige korreksjoner. . . "

Hvordan be (punkt 3.5)

Conrad and Schober (2008) gir en redigert volum tittelen Visjoner Survey Intervju of the Future, og det løser mange av temaene i denne delen. Couper (2011) tar opp lignende temaer, og Schober et al. (2015) gir et fint eksempel på hvordan datainnsamlingsmetoder som er skreddersydd til en ny innstilling kan resultere i høyere kvalitet data.

For en annen interessant eksempel på bruk av Facebook-apps for samfunnsvitenskapelige undersøkelser, se Bail (2015) .

For flere råd om å gjøre undersøkelser en hyggelig og verdifull opplevelse for deltakerne, se arbeidet på Skreddersydd design Method (Dillman, Smyth, and Christian 2014) .

Stone et al. (2007) har en bok lengde behandling av økologisk momentan vurdering og relaterte metoder.

Undersøkelser knyttet til andre data (§ 3.6)

Judson (2007) beskrev prosessen med å kombinere undersøkelser og administrative data som "informasjon integrering," drøfter noen fordeler med denne tilnærmingen, og tilbyr noen eksempler.

En annen måte at forskere kan bruke digitale spor og administrative data er et utvalg ramme for mennesker med bestemte egenskaper. Men få tilgang til disse postene skal brukes en prøvetaking ramme kan også lage spørsmål knyttet til personvern (Beskow, Sandler, and Weinberger 2006) .

Angå forsterket spørre, er denne tilnærmingen ikke så nye som det kan se ut fra hvordan jeg har beskrevet det. Denne tilnærmingen har dype forbindelser til tre store områder i statistikk-modellbasert post-stratifisering (Little 1993) , imputering (Rubin 2004) , og lite område estimering (Rao and Molina 2015) . Det er også knyttet til bruken av surrogat variabler i medisinsk forskning (Pepe 1992) .

I tillegg til de etiske problemstillinger vedrørende tilgang til de digitale spordata, kan forsterkes forlangende også brukes til å antyde sensitive egenskaper som folk ikke kan velge å avsløre i en undersøkelse (Kosinski, Stillwell, and Graepel 2013) .

Kostnadene og tiden estimatene i Blumenstock, Cadamuro, and On (2015) refererer mer til variable kostnads prisen for en ekstra undersøkelse-og inkluderer ikke faste kostnader som det koster å rense og behandle samtaledata. Generelt vil forsterkes forlangende sannsynligvis har høye faste kostnader og lave variable kostnader tilsvarende digitale eksperimenter (se kapittel 4). Flere detaljer om dataene som brukes i Blumenstock, Cadamuro, and On (2015) papir er i Blumenstock and Eagle (2010) og Blumenstock and Eagle (2012) . Tilnærminger fra flere imputuation (Rubin 2004) kan bidra til å fange usikkerhet i estimatene fra forsterket forlangende. Dersom forskerne gjør forsterket spør bare bryr seg om aggregerte tellinger, snarere enn individuelle nivå egenskaper, så tilnærminger i King and Lu (2008) og Hopkins and King (2010) kan være nyttig. For mer informasjon om maskinlæring tilnærminger i Blumenstock, Cadamuro, and On (2015) , se James et al. (2013) (mer innledende) eller Hastie, Tibshirani, and Friedman (2009) (mer avansert). En annen populær maskin læring lærebok er Murphy (2012) .

Angå beriket spørre, resultatene i Ansolabehere og Hersh (2012) hengsel på to viktige trinn: 1) evne Catalist å kombinere mange ulike datakilder for å produsere en nøyaktig mester datafile og 2) evne til Catalist å koble undersøkelsen data til sin herre datafilen. Derfor Ansolabehere og Hersh sjekke hver av disse trinnene nøye.

For å opprette masterdatafilen, kombinerer Catalist og harmoniserer informasjon fra mange forskjellige kilder, inkludert: flere stemmeberettigede poster snapshots fra hver stat, data fra National Endring av adresseregister Posten-tallet, og data fra andre uspesifiserte kommersielle leverandører. De blodige detaljer om hvordan alt dette rengjøring og sammenslåing skjer er utenfor rammen av denne boken, men denne prosessen, uansett hvor forsiktig, vil forplante feil i de opprinnelige datakildene og vil introdusere feil. Selv Catalist var villig til å diskutere sin databehandling og gi noen av sine rådata, det var rett og slett umulig for forskere å gjennomgå hele Catalist data rørledning. Snarere forskerne var i en situasjon hvor Catalist datafil hadde noen ukjente, og kanskje ukjent, mengde feil. Dette er en alvorlig bekymring fordi en kritiker kan spekulere i at de store forskjellene mellom undersøkelsen rapporter om CCES og atferd i Catalist mester datafilen ble forårsaket av feil i master datafil, ikke av feilrapportering av respondentene.

Ansolabehere og Hersh tok to ulike tilnærminger til å løse datakvaliteten bekymring. Først i tillegg til å sammenligne selvrapportert stemmegivning til stemmegivning i Catalist master fil, forskerne også sammenlignet selvrapportert fest, rase, velgerregistreringsstatus (f.eks, registrert eller ikke registrert) og valgmetoden (for eksempel i person, fraværende stemmeseddel, etc.) til de verdiene som finnes i Catalist databaser. For disse fire demografiske variabler, fant forskerne mye høyere nivåer av avtale mellom tilstandsrapport og data i Catalist master fil enn for stemmegivningen. Dermed ser det Catalist mester datafil å ha høy kvalitet informasjon til andre formål enn stemmegivning trekk, noe som tyder på at det ikke er av dårlig generelle kvaliteten. For det andre, delvis ved hjelp av data fra Catalist, Ansolabehere og Hersh utviklet tre ulike mål på kvaliteten på fylke stemmeberettigede poster, og de fant at estimert hastighet på over-rapportering av stemmegivningen var i hovedsak relatert til noen av disse dataene kvalitetstiltak, et funn som tyder på at høy forekomst av overrapportering ikke blir drevet av fylkene med uvanlig lav datakvalitet.

Gitt etableringen av denne master stemmegivning fil, er den andre kilden til potensielle feil å knytte undersøkelsen poster til det. For eksempel, hvis denne koblingen er gjort feil det kan føre til en over-estimat av forskjellen mellom rapportert og godkjent valgatferd (Neter, Maynes, and Ramanathan 1965) . Hvis hver person hadde en stabil, unik identifikator som var i begge datakilder, så sammenhengen ville være trivielt. I USA og de fleste andre land, men det er ingen universell identifikator. Videre, selv om det var en slik identifikator fleste vil nok være nølende til å gi det til undersøkelse forskere! Dermed Catalist måtte gjøre sammenhengen bruker ufullkomne identifikatorer, i dette tilfellet fire stykker av informasjon om hver respondent: navn, kjønn, fødselsår og bostedsadresse. For eksempel, hadde Catalist å avgjøre om Homie J Simpson i CCES var den samme personen som Homer Jay Simpson i sin herre datafil. I praksis er samsvarende en vanskelig og rotete prosess, og for å gjøre vondt verre for forskerne, Catalist vurdert sin matchingsteknikk for å være proprietær.

For å validere de samsvarende algoritmer, stolte de på to utfordringer. Først Catalist deltatt i en matchende konkurranse som ble kjørt av en uavhengig, tredjeparts: Mitre Corporation. MITRE ga alle deltakerne to bråkete datafiler som skal tilpasses, og forskjellige lag konkurrerte om å gå tilbake til MITRE best matching. Fordi MITRE selv visste riktig matching de var i stand til å score lag. Av de 40 selskapene som konkurrerte, Catalist kom på andre plass. Denne typen uavhengig, tredjeparts vurdering av proprietær teknologi er ganske sjeldne og utrolig verdifull; Det bør gi oss tillit til at Catalist er samsvarende prosedyrer er i hovedsak på state-of-the-art. Men er state-of-the-art god nok? I tillegg til denne matchende konkurranse, Ansolabehere og Hersh skapt sin egen matchende utfordring for Catalist. Fra et tidligere prosjekt, hadde Ansolabehere og Hersh samlet velger poster fra Florida. De ga noen av disse postene med noen av sine felt Redacted å Catalist og deretter sammenlignet Catalist rapporter av disse feltene til deres faktiske verdier. Heldigvis Catalist rapporter var nær tilbakeholdt verdier, noe som indikerer at Catalist kunne matche delvis velgernes poster på sin herre datafil. Disse to utfordringene, en av en tredjepart og en av Ansolabehere og Hersh, gi oss mer selvtillit i Catalist matchende algoritmer, selv om vi ikke kan se gjennom deres eksakte gjennomføringen oss selv.

Det har vært mange tidligere forsøk på å validere stemmegivning. For en oversikt over denne litteraturen, se Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , og Hanmer, Banks, and White (2014) .

Det er viktig å merke seg at selv om det i dette tilfellet forskere ble oppmuntret av kvaliteten på data fra Catalist, har andre evalueringer av kommersielle leverandører vært mindre entusiastisk. Forskere har funnet dårlig kvalitet når data fra en undersøkelse til en forbruker-fil fra Marketing Systems Group (som selv flettes sammen data fra tre leverandører: Acxiom, Experian, og infoUSA) (Pasek et al. 2014) . Det vil si at datafilen samsvarte ikke undersøkelsen svar at forskere som forventes å være korrekt, den datafilen hadde manglende data for et stort antall spørsmål, og den manglende data mønsteret ble korrelert til rapportert undersøkelse verdi (med andre ord den manglende data var systematisk , ikke tilfeldig).

For mer om posten sammenhengen mellom undersøkelser og administrative data, se Sakshaug and Kreuter (2012) og Schnell (2013) . For mer om posten kobling generelt, se Dunn (1946) og Fellegi and Sunter (1969) (historical) og Larsen and Winkler (2014) (moderne). Lignende tilnærminger har også blitt utviklet i informatikk under navn som datadeduplisering, eksempel identifikasjon, navn matching, duplikat deteksjon, og duplisere rekord deteksjon (Elmagarmid, Ipeirotis, and Verykios 2007) . Det er også personvernet bevare tilnærminger for å spille inn kobling som ikke krever overføring av personopplysninger (Schnell 2013) . Forskere ved Facebook utviklet en prosedyre for å probabilisticsly knytte sine poster til valgatferd (Jones et al. 2013) ; denne sammenhengen ble gjort for å evaluere et eksperiment som jeg skal fortelle deg om i kapittel 4 (Bond et al. 2012) .

Et annet eksempel på å knytte en storstilt sosial undersøkelse av offentlige administrative registre kommer fra Helse og pensjonering Survey og Social Security Administration. For mer om den studien, inkludert informasjon om samtykke prosedyren, se Olson (1996) og Olson (1999) .

Prosessen med å kombinere mange kilder til administrative registre til en mester datafile-prosessen som Catalist ansatte-er vanlig i de statistiske kontorene til noen nasjonale regjeringer. To forskere fra Statistisk Sverige har skrevet en detaljert bok om emnet (Wallgren and Wallgren 2007) . For et eksempel på denne tilnærmingen i et enkelt fylke i USA (Olmsted County, Minnesota, hjemmet til Mayo Clinic), se Sauver et al. (2011) . For mer om feil som kan forekomme i administrative registre, se Groen (2012) .