ytterligare kommentarer

Detta avsnitt är utformat för att användas som en referens, i stället för att läsas som en berättelse.

  • Inledning (avsnitt 3.1)

Många av de teman i detta kapitel har också ekade under de senaste president adresser vid American Association för opinionsundersökningar (AAPOR), såsom Dillman (2002) , Newport (2011) , Santos (2014) , och Link (2015) .

För mer historisk bakgrund om utvecklingen av opinionsundersökningar, se Smith (1976) och Converse (1987) . För mer information om idén om tre epoker av opinionsundersökningar, se Groves (2011) och Dillman, Smyth, and Christian (2008) (som bryter upp de tre epoker något annorlunda).

En topp i övergången från den första till den andra eran i opinionsundersökningar är Groves and Kahn (1979) , som gör en detaljerad head-to-head jämförelse mellan a. Ansikte mot ansikte och telefonundersökning Brick and Tucker (2007) ser tillbaka på den historiska utvecklingen av slumpmässiga siffror uppringning provtagningsmetoder.

För mer om hur opinionsundersökningar har förändrats under de senaste som svar på förändringar i samhället, se Tourangeau (2004) , Mitofsky (1989) , och Couper (2011) .

  • Frågar vs observation (avsnitt 3.2)

Lär dig mer om interna tillstånd genom att ställa frågor kan vara problematiskt eftersom det ibland respondenterna själva inte är medvetna om sina interna tillstånd. Till exempel Nisbett and Wilson (1977) har en underbar papper med den suggestiva titeln: "Berättar mer än vi kan veta. Muntliga rapporter om mentala processer" i uppsatsen Författarna drar slutsatsen: "ämnen är ibland (a) ovetande om förekomsten av en stimulans som allt påverkat ett svar, (b) ovetande om förekomsten av svaret, och (c) ovetande om att stimulansen har påverkat svar. "

För argument som forskare bör föredrar observerade beteendet rapporterade beteende eller attityder, se Baumeister, Vohs, and Funder (2007) (psykologi) och Jerolmack and Khan (2014) och svar (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (sociologi). Skillnaden mellan fråga och observera även uppstår i ekonomi, där forskare berättar om angivna och avslöjad preferens. Till exempel kan en forskare begära svarande om de föredrar att äta glass eller går till gymmet (angivna inställningar) eller forskning kunde observera hur ofta människor äter glass och gå till gymmet (avslöjad preferens). Det finns djup skepsis av vissa typer av scenariodata i ekonomi (Hausman 2012) .

Ett huvudtema från dessa diskussioner är att redovisade beteende är inte alltid korrekt. Men, kan registreras automatiskt beteende inte vara korrekt, kan inte samlas på ett prov av intresse, och får inte vara tillgängliga för forskare. Således, i vissa situationer, jag tror att redovisade beteende kan vara användbart. Vidare är en andra huvudtema från dessa debatter som rapporter om känslor, kunskap, förväntningar och åsikter är inte alltid korrekt. Men, om information om dessa interna tillstånd behövs av forskare, antingen för att förklara några beteende eller som man kan förklaras-sedan frågar kan vara lämpligt.

  • Totalundersökning fel (avsnitt 3.3)

För bok längd behandlingar på totalundersökning fel, se Groves et al. (2009) eller Weisberg (2005) . För en historia av utvecklingen av totalundersökning fel, se Groves and Lyberg (2010) .

När det gäller representation, är National Research Council rapport om Bortfall Samhällsvetarprogrammet Undersökningar en bra introduktion till de emissioner av icke-respons och bortfall bias: En forskningsagenda (2013) . En annan användbar översikt ges av (Groves 2006) . Dessutom har hela specialnummer av tidskriften av den officiella statistiken, Public Opinion Quarterly, och The Annals of American Academy of Political och samhällsvetenskap publicerats på temat bortfallet. Slutligen, det finns faktiskt många olika sätt att beräkna svarsfrekvensen; dessa metoder beskrivs i detalj i en rapport från American Association of Public Opinion Forskare (AAPOR) (Public Opinion Researchers} 2015) .

1936 litterära Digest enkät har studerats i detalj (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Det har också använts som en liknelse för att varna för insamling slumpartat uppgifter (Gayo-Avello 2011) . År 1936 använde George Gallup en mer sofistikerad form av provtagning och kunde producera mer exakta uppskattningar med en mycket mindre urval. Gallups framgång över litterära Digest var en milstolpe i utvecklingen av opinionsundersökningar (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .

När det gäller mätning, är ett bra första resurs för att utforma frågeformulär Bradburn, Sudman, and Wansink (2004) . För en mer avancerad behandling fokuserar specifikt på attitydfrågor, se Schuman and Presser (1996) . Mer om pre-tester frågor finns i Presser and Blair (1994) , Presser et al. (2004) , och kapitel 8 i Groves et al. (2009) .

Klassisk, bok-längd behandling av avvägningen mellan undersökningskostnader och undersöknings fel är Groves (2004) .

  • Vem att fråga (avsnitt 3.4)

Klassiska bok längd behandling av standardsannolikhetsurval och uppskattning är Lohr (2009) (mer inledande) och Särndal, Swensson, and Wretman (2003) (mer avancerad). En klassisk bok längd behandling av post-skiktning och tillhörande metoder är Särndal and Lundström (2005) . I vissa digitala ålders inställningar, forskare vet ganska lite om bortfallet, vilket inte var ofta sant i det förflutna. Olika former av justering bortfall är möjliga när forskarna har information om bortfallet (Kalton and Flores-Cervantes 2003; Smith 2011) .

Xbox studien av Wang et al. (2015) använder en teknik som kallas fler regression och poststratifiering (MRP, som ibland kallas "Mister P") som gör det möjligt för forskarna att uppskatta cell innebär att även om det finns många, många celler. Även om det finns en viss debatt om kvaliteten på uppskattningar från denna teknik, verkar det som en lovande område att utforska. Tekniken användes första gången i Park, Gelman, and Bafumi (2004) , och det har varit efterföljande användning och debatt (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . För mer information om sambandet mellan olika viktningar och cellbaserade vikter se Gelman (2007) .

För andra metoder för viktning webbenkäter, se Schonlau et al. (2009) , Valliant and Dever (2011) , och Bethlehem (2010) .

Prov matchning föreslogs av Rivers (2007) . Bethlehem (2015) hävdar att resultatet av provmatchning faktiskt kommer att likna andra provtagningsmetoder (t.ex. stratifierad sampling) och andra metoder justerings (t.ex. poststratifiering). För mer information om online-paneler, se Callegaro et al. (2014) .

Ibland forskare har funnit att sannolikhetsurval och icke-sannolikhetsurval ger uppskattningar av samma kvalitet (Ansolabehere and Schaffner 2014) , men andra jämförelser har funnit att icke-sannolikhetsurval göra sämre (Malhotra and Krosnick 2007; Yeager et al. 2011) . En möjlig orsak till dessa skillnader är att icke-sannolikhetsurval har förbättrats över tiden. För en mer pessimistisk syn på icke-sannolikhetsprovtagningsmetoder se den AAPOR arbetsgrupp för icke-sannolikhetsurval (Baker et al. 2013) , och jag rekommenderar också läsa kommentaren som följer den sammanfattande rapporten.

För en meta-analys av effekten av viktning för att minska bias i icke-sannolikhetsurval, se tabell 2.4 i Tourangeau, Conrad, and Couper (2013) , vilket leder författarna att sluta "justeringar verkar vara användbara men felbara korrigeringar. . . "

  • Hur man ber (avsnitt 3.5)

Conrad and Schober (2008) ger en redigerad volym med titeln Envisioning Survey Intervju of the Future, och det tar upp många av de teman i det här avsnittet. Couper (2011) tar upp liknande teman, och Schober et al. (2015) ger ett bra exempel på hur datainsamlingsmetoder som är anpassade till en ny inställning kan resultera i data av högre kvalitet.

För en annan intressant exempel på att använda Facebook-appar för samhällsvetenskapliga undersökningar, se Bail (2015) .

För mer råd om att göra undersökningar en trevlig och värdefull upplevelse för deltagarna, se arbetet med Skräddarsydd Design Method (Dillman, Smyth, and Christian 2014) .

Stone et al. (2007) ger en bok längd behandling av ekologiska momentan bedömning och relaterade metoder.

  • Undersökningar med anknytning till andra uppgifter (avsnitt 3.6)

Judson (2007) beskrev processen att kombinera undersökningar och administrativa uppgifter som "informations integration", diskuterar vissa fördelar med denna metod, och erbjuder några exempel.

Ett annat sätt att forskare kan använda digitala spår och administrativa uppgifter är en urvalsram för personer med specifika egenskaper. Men tillgång till dessa poster som ska användas urvalsram kan också skapa frågor till privatliv (Beskow, Sandler, and Weinberger 2006) .

Beträffande förstärkt frågar, är denna metod inte så nytt som det kan tyckas från hur jag har beskrivit det. Detta tillvägagångssätt har djupa kopplingar till tre stora områden i statistik-modellbaserad poststratifiering (Little 1993) , imputering (Rubin 2004) , och litet område uppskattning (Rao and Molina 2015) . Det är också i samband med användning av surrogat variabler i medicinsk forskning (Pepe 1992) .

Utöver de etiska frågor som rör tillgång till de digitala spårdata, kan förstärkt frågar också användas för att sluta sig till känsliga egenskaper som folk inte kan välja att avslöja i en undersökning (Kosinski, Stillwell, and Graepel 2013) .

De kostnads- och tidsuppskattningar i Blumenstock, Cadamuro, and On (2015) hänvisar mer rörliga kostnads ​​kostnaden för en ytterligare undersökning, och inte innehåller fasta kostnader såsom kostnader för att rengöra och bearbeta data samtals. I allmänhet kommer förstärkt frågar förmodligen höga fasta kostnader och låga rörliga kostnader liknar digitala experiment (se kapitel 4). Mer information om de uppgifter som används i Blumenstock, Cadamuro, and On (2015) papper är i Blumenstock and Eagle (2010) och Blumenstock and Eagle (2012) . Metoder från flera imputuation (Rubin 2004) kan hjälpa fånga osäkerheten i beräkningarna från förstärkt fråga. Om forskare arbete har förstärkt frågar bara bryr sig om aggregerade räknas, snarare än individnivå drag, då de metoder i King and Lu (2008) och Hopkins and King (2010) kan vara användbar. För mer om maskininlärning metoder i Blumenstock, Cadamuro, and On (2015) , se James et al. (2013) (mer inledande) eller Hastie, Tibshirani, and Friedman (2009) (mer avancerad). En annan populär maskininlärning lärobok är Murphy (2012) .

Beträffande anrikat frågar, resultaten i Ansolabehere och Hersh (2012) gångjärn på två viktiga steg: 1) förmåga Catalist att kombinera många olika datakällor för att producera en riktig mästare datafil och 2) förmåga Catalist länka undersökningen data till dess befälhavare datafil. Därför Ansolabehere och Hersh kontrollera vart och ett av dessa steg noggrant.

Att skapa befälhavaren datafil, kombinerar Catalist och harmoniserar information från många olika källor, bland annat: flera poster röst snapshots från varje stat, data från Post Office National Adressändring registret, och data från andra ospecificerade kommersiella leverantörer. De blodiga detaljer om hur allt detta rengöring och sammanslagning händer är utanför ramen för denna bok, men denna process, oavsett hur försiktig, kommer att fortplanta fel i de ursprungliga datakällorna och kommer att införa fel. Även Catalist var villig att diskutera sin databehandling och ger en del av sina rådata, var det helt enkelt omöjligt för forskare att granska hela Catalist uppgifter pipeline. Snarare har forskarna i en situation där den Catalist datafil hade någon okänd, och kanske ovetbar, mängd fel. Detta är ett allvarligt problem eftersom en kritiker kan spekulera i att de stora skillnaderna mellan undersökningsrapporterna om CCES och beteendet i Catalist Master datafil orsakades av fel i huvuddatafilen, inte genom felrapportering av de tillfrågade.

Ansolabehere och Hersh tog två olika metoder för att ta itu med datakvaliteten oro. Först, förutom att jämföra självrapporterad rösta för att rösta i Catalist masterfilen, forskarna jämförde också självrapporterade parti, ras, väljarregistrering status (t.ex. registrerad eller inte registrerad) och röstningsmetod (t.ex. personligen, frånvarande omröstning, etc.) till de värden som finns i de Catalist databaser. För dessa fyra demografiska variabler, forskarna funnit mycket högre nivåer av överenskommelse mellan undersökningsrapporten och data i Catalist Master File än för röstning. Således verkar det Catalist huvuddatafilen att ha information av hög kvalitet för andra ändamål än att rösta drag, vilket tyder på att det inte är av dålig kvalitet. För det andra, delvis med hjälp av data från Catalist, Ansolabehere och Hersh utvecklat tre olika mått på kvalitet poster län röst, och de fann att den beräknade frekvensen av överrapportering av röstningen var i huvudsak samband med någon av dessa uppgifter kvalitetsmått, ett konstaterande som tyder på att de höga överrapportering inte drivs av länen med ovanligt låg datakvalitet.

Med tanke på skapandet av denna huvudröstnings fil är den andra källan till potentiella fel som förbinder de besiktningsprotokoll till det. Till exempel, om denna koppling görs på fel sätt kan det leda till en överskattning av skillnaden mellan rapporterats och verifierats väljarbeteende (Neter, Maynes, and Ramanathan 1965) . Om varje människa hade en stabil, unik identifierare som var i både datakällor, då kopplingen skulle vara trivialt. I USA och de flesta andra länder, men det finns ingen universell identifierare. Vidare, även om det fanns en sådan en identifierare människor skulle förmodligen vara tveksamma till att ge det att kartlägga forskare! Således Catalist var tvungen att göra kopplingen med hjälp av ofullkomliga identifierare, i detta fall fyra typer av information om varje respondent: namn, kön, födelseår och hemadress. Till exempel, Catalist tvungen att besluta om Homie J Simpson i CCES var samma person som Homer Jay Simpson i sin herre datafil. I praktiken är matcha en svår och rörig process, och för att göra saken värre för forskarna, Catalist anses sitt matchande teknik för att vara egen.

För att validera matchande algoritmer, de förlitade sig på två utmaningar. Först Catalist deltog i en matchande tävling som kördes av en oberoende tredje part: The Mitre Corporation. MITRE under förutsättning att alla deltagare två bullriga datafiler som ska matchas, och olika grupper tävlade om att återvända till MITRE den bästa matchningen. Eftersom MITRE själv visste rätt matchning de kunde göra mål lagen. Av de 40 företag som konkurrerade, Catalist kom på andra plats. Denna typ av oberoende tredje part utvärdering av teknologi är ganska ovanligt och oerhört värdefullt; Det bör ge oss självförtroende att Catalist matchningsförfaranden är i huvudsak på state-of-the-art. Men är state-of-the-art tillräckligt bra? Utöver detta matcha konkurrensen Ansolabehere och Hersh skapat sin egen matchande utmaning för Catalist. Från ett tidigare projekt hade Ansolabehere och Hersh samlas väljare poster från Florida. De tillhandahöll en del av dessa poster med några av sina områden redigerad till Catalist och jämförs sedan Catalist rapporter om dessa områden till sina verkliga värden. Lyckligtvis Catalist rapporter var nära de innehållna värdena, vilket indikerar att Catalist kunde matcha partiella väljare rekord på sin herre datafil. Dessa två utmaningar, en av en tredje part och ett av Ansolabehere och Hersh, ge oss mer förtroende för CataList matchande algoritmer, även om vi inte kan se deras exakta genomförandet oss.

Det har funnits många tidigare försök att validera röstning. För en översikt av denna litteratur, se Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , och Hanmer, Banks, and White (2014) .

Det är viktigt att notera att även i detta fall forskarna uppmuntrades av kvaliteten på data från Catalist har andra utvärderingar av kommersiella leverantörer varit mindre entusiastisk. Forskare har funnit dålig kvalitet när data från en undersökning till en konsument-fil från Marketing Systems Group (som i sin tur fogas samman data från tre leverantörer: Acxiom, Experian, och infoUSA) (Pasek et al. 2014) . Det vill säga datafilen matchade inte enkätsvar som forskarna förväntas vara korrekt, datafilen hade saknas data för ett stort antal frågor, och det saknade datamönstret var korrelerad rapporterade undersökning värde (med andra ord uppgifter som saknas var systematisk , inte slumpmässigt).

Mer information om rekord koppling mellan undersökningar och administrativa uppgifter, se Sakshaug and Kreuter (2012) och Schnell (2013) . För mer information om rekord koppling i övrigt hänvisas Dunn (1946) och Fellegi and Sunter (1969) (historical) och Larsen and Winkler (2014) (modern). Liknande tillvägagångssätt har också tagits fram i datavetenskap under namnen såsom data deduplication, exempelvis identifiering, namn matchning, dubblettidentifiering och duplicera rekord upptäckt (Elmagarmid, Ipeirotis, and Verykios 2007) . Det finns också privatliv bevara metoder för att spela in koppling som inte kräver överföring av personlig information (Schnell 2013) . Forskare vid Facebook utvecklat en metod för att probabilisticsly länka sina register till röstningsbeteende (Jones et al. 2013) ; denna koppling gjordes för att utvärdera ett experiment som jag ska berätta om i kapitel 4 (Bond et al. 2012) .

Ett annat exempel på att koppla en storskalig social undersökning statliga administrativa register kommer från Världshälso och Retirement Survey och Social Security Administration. För mer information om denna studie, inklusive information om tillståndsförfarandet, se Olson (1996) och Olson (1999) .

Processen att kombinera många källor till administrativa poster i en master datafil-processen som Catalist anställda-är vanligt i statistikbyråer i vissa nationella regeringar. Två forskare från SCB har skrivit en detaljerad bok i ämnet (Wallgren and Wallgren 2007) . Ett exempel på detta tillvägagångssätt i ett enda län i USA (Olmsted County, Minnesota, hem för Mayo Clinic), se Sauver et al. (2011) . För mer information om fel som kan visas i administrativa register, se Groen (2012) .