verdere commentaar

Deze sectie is ontworpen om te worden gebruikt als referentie, in plaats van te worden gelezen als een verhaal.

  • Inleiding (paragraaf 3.1)

Veel van de thema's in dit hoofdstuk zijn ook tot uiting in de afgelopen Presidential Adressen op de American Association of Public Opinion Research (AAPOR), zoals Dillman (2002) , Newport (2011) , Santos (2014) , en Link (2015) .

Voor meer historische achtergrond over de ontwikkeling van het survey-onderzoek, zie Smith (1976) en Converse (1987) . Voor meer informatie over het idee van de drie tijdperken van survey-onderzoek, zie Groves (2011) en Dillman, Smyth, and Christian (2008) (wat iets anders breekt de drie tijdperken).

Een piek in de overgang van de eerste naar de tweede tijdperk in survey-onderzoek is Groves and Kahn (1979) , waarin een gedetailleerd head-to-head vergelijking tussen doet een face-to-face en telefonische enquête. Brick and Tucker (2007) blikt terug op de historische ontwikkeling van willekeurige nummerbellen bemonsteringsmethoden.

Voor meer hoe survey-onderzoek is veranderd in het verleden als reactie op veranderingen in de samenleving, zie Tourangeau (2004) , Mitofsky (1989) , en Couper (2011) .

  • Vraagprijs versus observeren (paragraaf 3.2)

Leren over interne toestanden door vragen te stellen kan problematisch zijn omdat soms de respondenten zich niet bewust zijn van hun interne toestanden. Bijvoorbeeld Nisbett and Wilson (1977) hebben een prachtige papier met de suggestieve titel: "Het vertellen van meer dan wij kunnen weten:. Mondelinge rapporten over de mentale processen" In de krant de auteurs concluderen: "onderwerpen zijn soms (a) niet op de hoogte van de aanwezigheid van een stimulus die vooral een reactie beïnvloed, (b) niet van het bestaan ​​van de reactie, en (c) niet van bewust dat de stimulus de reactie heeft beïnvloed. "

Voor argumenten die onderzoekers waargenomen gedrag moet de voorkeur aan gerapporteerde gedrag of attitudes, zie Baumeister, Vohs, and Funder (2007) (psychologie) en Jerolmack and Khan (2014) en reacties (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (sociologie). Het verschil tussen de vraag en het observeren ook voordoet in de economie, waar onderzoekers praten over gezegd en gebleken voorkeuren. Zo kan een onderzoeker de respondenten of ze liever het eten van ijs of ga naar de sportschool (stated preferences) vragen of het onderzoek zou kunnen zien hoe vaak mensen eten ijs en ga naar de sportschool (gebleken voorkeuren). Er is diep scepticisme van bepaalde aangegeven voorkeuren data in de economie (Hausman 2012) .

Een van de belangrijkste thema van deze debatten is dat de gerapporteerde gedrag is niet altijd accuraat. Maar, kan automatisch opgenomen gedrag niet nauwkeurig zijn, mag niet worden verzameld op een steekproef van belang, en kan niet toegankelijk voor onderzoekers. Dus, in sommige situaties, denk ik dat de gerapporteerde gedrag nuttig kunnen zijn. Verder werd een tweede hoofdthema van deze debatten is dat de verslagen over emoties, kennis, verwachtingen en meningen zijn niet altijd accuraat. Maar als informatie over deze interne toestanden nodig zijn door onderzoekers-ofwel helpen verklaren sommige gedrag of als het ding te verklaren-dan vragen kan geschikt zijn.

  • Totaal enquête fout (paragraaf 3.3)

Voor boek lengte behandelingen op de totale enquête fout, zie Groves et al. (2009) of Weisberg (2005) . Voor een geschiedenis van de ontwikkeling van de totale enquête fout, zie Groves and Lyberg (2010) .

In termen van representatie, een geweldige kennismaking met de problematiek van de non-respons en non-respons vertekening is het rapport van de National Research Council on Nonresponse in Social Science Surveys: A Research Agenda (2013) . Een ander bruikbaar overzicht gegeven door (Groves 2006) . Ook zijn hele speciale uitgaven van het Journal of officiële statistieken Public Opinion Quarterly en de annalen van de Amerikaanse Academie van Politieke en Sociale Wetenschappen gepubliceerd over het onderwerp van de non-respons. Tenslotte zijn er eigenlijk vele verschillende manieren worden berekend respons; deze benaderingen worden in detail beschreven in een rapport van de American Association of Public Opinion Onderzoekers (AAPOR) (Public Opinion Researchers} 2015) .

De 1936 Literaire Digest poll werd in detail bestudeerd (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Het is ook gebruikt als een gelijkenis te waarschuwen tegen toevallige gegevensverzameling (Gayo-Avello 2011) . In 1936, George Gallup gebruik gemaakt van een meer verfijnde vorm van de bemonstering, en was in staat om meer accurate schattingen te produceren met een veel kleinere steekproef. Succes van Gallup's over de Literaire Digest was een mijlpaal voor de ontwikkeling van survey-onderzoek (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .

In termen van de meting, een geweldige eerste bron voor het ontwerpen van vragenlijsten is Bradburn, Sudman, and Wansink (2004) . Voor een meer geavanceerde behandeling specifiek gericht op houding vragen, zie Schuman and Presser (1996) . Meer informatie over pre-testen vragen is beschikbaar in Presser and Blair (1994) , Presser et al. (2004) , en in hoofdstuk 8 van Groves et al. (2009) .

De klassieke, boek-length behandeling van de trade-off tussen de survey kosten en survey fouten Groves (2004) .

  • Wie vragen (paragraaf 3.4)

Klassieke boek-length behandeling van standaard kanssteekproeven en de schatting zijn Lohr (2009) (meer inleidende) en Särndal, Swensson, and Wretman (2003) (meer geavanceerde). Een klassiek boek-length behandeling van post-stratificatie en verwante methoden is Särndal and Lundström (2005) . In sommige digitale tijdperk instellingen, onderzoekers weten heel wat over non-respondenten, wat niet vaak het geval in het verleden was. Verschillende vormen van non-respons aanpassingen zijn mogelijk wanneer de onderzoekers hebben gegevens over non-respondenten (Kalton and Flores-Cervantes 2003; Smith 2011) .

De Xbox studie van Wang et al. (2015) gebruikt een techniek genaamd multilevel regressie en poststratificatie (MRP, soms "Mister P") waarmee onderzoekers schatten celgemiddelden zelfs wanneer er vele cellen. Hoewel er enige discussie over de kwaliteit van de ramingen van deze techniek, het lijkt een veelbelovend gebied om te verkennen. De techniek werd voor het eerst gebruikt in Park, Gelman, and Bafumi (2004) , en er is later gebruik en debat (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Voor meer informatie over het verband tussen individuele gewichten en op cellen gebaseerde gewichten zien Gelman (2007) .

Voor andere benaderingen van weging web surveys, zie Schonlau et al. (2009) , Valliant and Dever (2011) , en Bethlehem (2010) .

Monster matching werd voorgesteld door Rivers (2007) . Bethlehem (2015) stelt dat de prestaties van monster matching eigenlijk vergelijkbaar met andere steekproeven benaderingen (bijv gestratificeerde bemonstering) en andere bedieningsprogramma benaderingen (bijv poststratificatie) zal zijn. Voor meer informatie over online panels, zie Callegaro et al. (2014) .

Soms onderzoekers hebben ontdekt dat waarschijnlijkheid monsters en niet-kans monsters op schattingen van vergelijkbare kwaliteit (Ansolabehere and Schaffner 2014) , maar ook andere vergelijkingen hebben ontdekt dat niet-kans monsters slechter doen (Malhotra and Krosnick 2007; Yeager et al. 2011) . Een mogelijke reden voor deze verschillen is dat niet-kanssteekproeven zijn verbeterd in de tijd. Voor een meer pessimistische kijk op de niet-kanssteekproeven methoden zie de AAPOR Task Force on Non-waarschijnlijkheid Sampling (Baker et al. 2013) , en ik ook aan het lezen van het commentaar dat het samenvattend verslag volgt.

Voor een meta-analyse over het effect van de weging om vertekening in niet-waarschijnlijkheid monsters te verminderen, zie tabel 2.4 in Tourangeau, Conrad, and Couper (2013) , waarin de auteurs leidt tot de conclusie "aanpassingen lijken nuttig maar feilbaar correcties zijn. . . '

  • Hoe om te vragen (paragraaf 3.5)

Conrad and Schober (2008) geeft een bundel met de titel Envisioning de Survey Interview van de Toekomst, en richt zij veel van de thema's in deze sectie. Couper (2011) richt zich op soortgelijke thema's en Schober et al. (2015) biedt een mooi voorbeeld van hoe het verzamelen van gegevens methoden die zijn afgestemd op een nieuwe instelling kan leiden tot een hogere kwaliteit van de gegevens.

Voor een ander interessant voorbeeld van het gebruik van Facebook apps voor sociaal-wetenschappelijk onderzoek, zie Bail (2015) .

Voor meer advies over het maken van enquêtes een plezierige en waardevolle ervaring voor de deelnemers, zie werk aan de Tailored ontwerp methode (Dillman, Smyth, and Christian 2014) .

Stone et al. (2007) heeft een boek lengte behandeling van ecologische kortstondige assessment en verwante methoden.

  • Onderzoeken in verband met andere gegevens (paragraaf 3.6)

Judson (2007) beschreef het proces van het combineren enquêtes en administratieve gegevens als "informatie-integratie," bespreekt enkele voordelen van deze benadering, en biedt enkele voorbeelden.

Een andere manier dat onderzoekers digitale sporen en administratieve gegevens kan gebruiken is een steekproefkader voor mensen met specifieke eigenschappen. Echter, toegang tot deze gegevens te gebruiken van een steekproefkader kunnen ook vragen met betrekking tot privacy te creëren (Beskow, Sandler, and Weinberger 2006) .

Met betrekking tot versterkte vraag- deze aanpak is niet zo nieuw als het lijkt uit hoe ik het heb beschreven. Deze aanpak heeft diepe verbindingen met drie grote gebieden in de statistieken-model op basis van post-stratificatie (Little 1993) , imputatie (Rubin 2004) , en klein gebied schatting (Rao and Molina 2015) . Het is ook gerelateerd aan het gebruik van surrogaat variabelen in medisch onderzoek (Pepe 1992) .

Naast de ethische problemen met betrekking tot de toegang tot digitale traceringgegevens kan geamplificeerde vraag- ook worden gebruikt om gevoelige eigenschappen die men niet kan kiezen om onthullen een onderzoek concluderen (Kosinski, Stillwell, and Graepel 2013) .

De kosten en de tijd schattingen Blumenstock, Cadamuro, and On (2015) verwijzen meer variabele kosten de kosten van een extra onderzoek-en omvatten geen vaste kosten, zoals de kosten voor het reinigen en het gesprek te verwerken. In het algemeen zal versterkt vragen waarschijnlijk hoge vaste kosten en lage variabele kosten vergelijkbaar met digitale experimenten (zie hoofdstuk 4). Meer details over de gebruikte data Blumenstock, Cadamuro, and On (2015) papier zijn in Blumenstock and Eagle (2010) en Blumenstock and Eagle (2012) . Benaderingen uit meerdere imputuation (Rubin 2004) zou kunnen helpen vast te leggen onzekerheid in de ramingen van versterkte vragen. Als onderzoekers doend versterkt vragen alleen de zorg over de totale telt, in plaats van individuele niveau eigenschappen, dan is de benaderingen in de King and Lu (2008) en Hopkins and King (2010) kan nuttig zijn. Voor meer informatie over de machine learning benaderingen in Blumenstock, Cadamuro, and On (2015) , zie James et al. (2013) (meer inleidende) of Hastie, Tibshirani, and Friedman (2009) (meer geavanceerde). Een andere populaire machine learning leerboek is Murphy (2012) .

Met betrekking tot verrijkt vraag- de resultaten in Ansolabehere en Hersh (2012) scharnier aan twee belangrijke stappen: 1) het vermogen van Catalist voor veel ongelijksoortige gegevensbronnen het onderzoek gegevens te combineren om een nauwkeurige meester datafile produceren en 2) het vermogen van Catalist om te linken naar zijn meester datafile. Daarom Ansolabehere en Hersh controleren elk van deze stappen zorgvuldig.

Om de meester datafile te creëren, Catalist combineert en harmoniseert informatie uit verschillende bronnen, waaronder: meervoudig stemrecht verslagen snapshots van elke staat, de gegevens van de Nationale Adreswijziging griffie van Post Office, en gegevens uit andere ongespecificeerde commerciële aanbieders. De bloederige details over hoe dit alles schoonmaken en samenvoeging gebeurt vallen buiten het bestek van dit boek, maar dit proces, het maakt niet uit hoe voorzichtig, zullen fouten in de oorspronkelijke gegevensbronnen propageren en zal fouten te introduceren. Hoewel Catalist was bereid om de verwerking van gegevens te bespreken en bieden een aantal van de ruwe data, het was gewoon onmogelijk voor onderzoekers om het hele Catalist data pipeline herzien. Integendeel, de onderzoekers waren in een situatie waarin de Catalist bestand had een aantal onbekende, en misschien onkenbaar, het bedrag van de fout. Dit is een ernstig probleem, omdat een criticus zou kunnen speculeren dat de grote verschillen tussen de onderzoeksrapporten over de CCES en het gedrag in de Catalist master data bestand werden veroorzaakt door fouten in de stamgegevens-bestand, niet door onjuiste aangiften te voorkomen door de respondenten.

Ansolabehere en Hersh nam twee verschillende benaderingen voor het aanpakken van de kwaliteit van de gegevens betreffen. Ten eerste, in aanvulling op het vergelijken van zelf-gerapporteerde stemming om te stemmen in de Catalist master file, de onderzoekers ook ten opzichte van zelf-gerapporteerde partij, ras, kiezersregistratie status (bv, geregistreerd of niet geregistreerd) en de stemming methode (bijvoorbeeld, in persoon, afwezige stemming, etc.) die waarden in de Catalist databases. Voor deze vier demografische variabelen, vonden de onderzoekers veel hogere niveaus van overeenkomst tussen onderzoeksrapport en de gegevens in de Catalist master file dan voor je stem. Zo lijkt de Catalist stamgegevens-bestand naar hoogwaardige informatie voor andere doeleinden dan de stemming eigenschappen hebben, wat erop wijst dat het niet van slechte algehele kwaliteit. Ten tweede, voor een deel met behulp van gegevens uit Catalist, Ansolabehere en Hersh ontwikkelde drie verschillende maatregelen van de kwaliteit van de provincie stemgedrag, en zij vonden dat de geschatte snelheid van de over-rapportage van de stemming was in wezen niets van doen hebben van deze gegevens de kwaliteit maatregelen, een bevinding die suggereren dat de hoge tarieven van over-rapportage worden niet gedreven door provincies met ongewoon lage kwaliteit van de gegevens.

Gezien de totstandkoming van deze meester stemming bestand, wordt de tweede bron van mogelijke fouten die de enquête records naar het. Bijvoorbeeld, als deze koppeling niet goed wordt gedaan kan leiden tot een overschatting van het verschil tussen gerapporteerd en gevalideerd stemgedrag (Neter, Maynes, and Ramanathan 1965) . Als elke persoon een stabiele, unieke identifier dat was in beide gegevensbronnen had, dan koppeling zou triviaal. In de VS en de meeste andere landen, maar er is geen universele identifier. Verder, zelfs als er zo'n identifier mensen zouden waarschijnlijk aarzelen om het te verstrekken aan de onderzoekers enquête! Zo Catalist moest de koppeling doen met behulp van onvolmaakte identifiers, in dit geval vier stukken van informatie over elke respondent: naam, geslacht, geboortejaar, en huisadres. Bijvoorbeeld Catalist moest beslissen of de homie J Simpson in de CCES was dezelfde persoon is als de Homer Jay Simpson in hun master data bestand. In de praktijk, matching is een moeilijk en rommelig proces, en, tot overmaat van ramp voor de onderzoekers te maken, Catalist beschouwd als de bijbehorende techniek eigen te zijn.

Om de matching algoritmen valideren hebben gebaseerd op twee uitdagingen. Ten eerste, Catalist deelgenomen aan een bijpassende wedstrijd die werd uitgevoerd door een onafhankelijke derde partij: de MITRE Corporation. MITRE mits alle deelnemers twee luidruchtige gegevensbestanden aan te passen, en de verschillende teams streden om terug te keren naar MITRE de beste matching. Omdat MITRE zelf wist dat de juiste matching waren ze in staat om de teams te scoren. Van de 40 bedrijven die streden, Catalist kwam op de tweede plaats. Dit soort onafhankelijke, derde partij evaluatie van de eigen technologie is vrij zeldzaam en ongelooflijk waardevol; het moet ons vertrouwen dat Catalist's matching procedures zijn in wezen op de state-of-the-art. Maar is de state-of-the-art goed genoeg? In aanvulling op deze matching concurrentie, Ansolabehere en Hersh creëerden hun eigen passende uitdaging voor Catalist. Uit een eerder project, had Ansolabehere en Hersh kiezer records van Florida verzameld. Ze boden een aantal van deze records met een aantal van hun velden geredigeerd om Catalist en vervolgens vergeleken verslagen van deze gebieden tot hun werkelijke waarden Catalist's. Gelukkig rapporten Catalist waren dicht bij de ingehouden waarden, wat aangeeft dat Catalist op hun master data bestand zou kunnen evenaren gedeeltelijke kiezer verslagen. Deze twee uitdagingen, een door een derde partij en één door Ansolabehere en Hersh, geef ons meer vertrouwen in de Catalist matching algoritmen, hoewel we niet kunnen beoordelen hun exacte uitvoering onszelf.

Er zijn vele eerdere pogingen om de stemming te valideren geweest. Voor een overzicht van die literatuur zie Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , en Hanmer, Banks, and White (2014) .

Het is belangrijk op te merken dat hoewel in dit geval onderzoekers bevorderd door de kwaliteit van de gegevens van Catalist, andere evaluaties van commerciële leveranciers hebben minder enthousiast. Onderzoekers hebben slechte kwaliteit gevonden wanneer de gegevens uit een enquête aan een consument-bestand van Marketing Systems Group (die zich samen gegevens samengevoegd uit drie providers: Acxiom, Experian, en infoUSA) (Pasek et al. 2014) . Dat wil zeggen dat het bestand niet overeen antwoorden op de enquête dat de onderzoekers naar verwachting juist te zijn, de datafile had ontbrekende gegevens voor een groot aantal vragen, en de ontbrekende data patroon werd gecorreleerd aan gemeld enquête waarde (met andere woorden: de ontbrekende gegevens was systematische , niet willekeurig).

Voor meer op de plaat koppeling tussen enquêtes en administratieve gegevens, zie Sakshaug and Kreuter (2012) en Schnell (2013) . Voor meer informatie over recordkoppeling in het algemeen, zie Dunn (1946) en Fellegi and Sunter (1969) (historische) en Larsen and Winkler (2014) (moderne). Soortgelijke benaderingen zijn ook ontwikkeld in de informatica onder de namen zoals data deduplicatie, bijvoorbeeld identificatie, naam matching, dubbele detectie en dubbele records (Elmagarmid, Ipeirotis, and Verykios 2007) . Er zijn ook de privacy behoud benaderingen koppeling die de overdracht van persoonlijke gegevens vereisen opnemen (Schnell 2013) . Onderzoekers van Facebook ontwikkelden een procedure om hun administratie probabilisticsly verwijzen naar het stemgedrag (Jones et al. 2013) ; deze koppeling werd gedaan om een experiment dat ik je vertellen over de in hoofdstuk 4 te evalueren (Bond et al. 2012) .

Een ander voorbeeld van het koppelen van een grootschalig sociaal onderzoek van de overheid administratie is afkomstig van de Health and Retirement Survey en de Social Security Administration. Voor meer informatie over dit onderzoek, waaronder informatie over de goedkeuringsprocedure, zie Olson (1996) en Olson (1999) .

Het proces van het combineren van vele bronnen van administratieve bestanden in een meester-databestand het proces dat Catalist medewerkers-is gebruikelijk in de statistische bureaus van een aantal nationale regeringen. Twee onderzoekers van Statistics Zweden hebben een gedetailleerd boek over het onderwerp geschreven (Wallgren and Wallgren 2007) . Voor een voorbeeld van deze aanpak in één provincie in de Verenigde Staten (Olmsted County, Minnesota, de thuisbasis van de Mayo Clinic), kunt u Sauver et al. (2011) . Voor meer informatie over fouten die kunnen worden weergegeven in de administratie, zie Groen (2012) .