4.3 To dimensjoner av eksperimenter: lab-felt og analog-digital

Laboratorieeksperimenter har kontroll, feltforsøk tilby realisme, og digitale feltforsøk kombinere kontroll og realisme i stor skala.

Eksperimenter kommer i mange forskjellige former og størrelser. Tidligere har forskere funnet det nyttig å organisere eksperimenter langs et kontinuum mellom laboratorieforsøk og felteksperimenter . Nå skal imidlertid forskere også organisere eksperimenter langs et andre kontinuum mellom analoge eksperimenter og digitale eksperimenter . Dette todimensjonale designrommet vil hjelpe deg å forstå styrken og svakhetene i ulike tilnærminger og markere områdene med størst mulighet (figur 4.1).

Figur 4.1: Skjematisk av designrom for eksperimenter. Tidligere varierte eksperimentene langs labfield-dimensjonen. Nå varierer de også på analog-digital dimensjon. Dette todimensjonale designrommet er illustrert av fire eksperimenter som jeg beskriver i dette kapitlet. Etter min mening er området med størst mulighet digitale felteksperimenter.

Figur 4.1: Skjematisk av designrom for eksperimenter. Tidligere varierte eksperimentene langs labfield-dimensjonen. Nå varierer de også på analog-digital dimensjon. Dette todimensjonale designrommet er illustrert av fire eksperimenter som jeg beskriver i dette kapitlet. Etter min mening er området med størst mulighet digitale felteksperimenter.

En dimensjon langs hvilke eksperimenter som kan organiseres, er labfeltdimensjonen. Mange eksperimenter i samfunnsvitenskap er laboratorieeksperimenter der studentene utfører merkelige oppgaver i et laboratorium for studiekreditt. Denne typen eksperiment dominerer forskning i psykologi fordi det gjør det mulig for forskere å lage svært kontrollerte innstillinger for å nøyaktig isolere og teste spesifikke teorier om sosial atferd. For visse problemer synes det imidlertid litt rart å trekke sterke konklusjoner om menneskelig atferd fra slike uvanlige personer som utfører slike uvanlige oppgaver i en så uvanlig situasjon. Disse bekymringene har ført til en bevegelse mot felteksperimenter . Felteksperimenter kombinerer den sterke utformingen av randomiserte kontrolleksperimenter med flere representative grupper av deltakere som utfører mer vanlige oppgaver i mer naturlige omgivelser.

Selv om noen tenker på laboratorie- og felteksperimenter som konkurrerende metoder, er det best å tenke på dem som komplementære, med forskjellige sterke og svake sider. For eksempel brukte Correll, Benard, and Paik (2007) både et laboratorieeksperiment og et felteksperiment i et forsøk på å finne kildene til "mødrepenningen." I USA tjener mødre mindre penger enn barnløse kvinner, selv når sammenligne kvinner med lignende ferdigheter som arbeider i lignende jobber. Det er mange mulige forklaringer for dette mønsteret, hvorav en er at arbeidsgivere er partisk mot mødre. (Interessant synes det motsatte å være sant for fedre: De har en tendens til å tjene mer enn sammenlignbare barnløse menn.) For å vurdere mulig forstyrrelse mot mødre, kjørte Correll og kolleger to eksperimenter: en i laboratoriet og en i feltet.

Først, i et laboratorieeksperiment, fortalte de deltakerne, som var universitetsstudenter, at et selskap ledet et arbeidssøk for en person til å lede sin nye East Coast-markedsavdeling. Studentene ble fortalt at selskapet ønsket hjelpen i ansettelsesprosessen, og de ble bedt om å gjennomgå CV fra flere potensielle kandidater og å vurdere kandidatene på en rekke dimensjoner, for eksempel deres intelligens, varme og engasjement for arbeid. Videre ble studentene spurte om de ville anbefale å ansette søkeren og hva de ville anbefale som startlønn. Ukjent for studentene, men CVene var spesielt konstruert for å være like bortsett fra én ting: Noen av dem signaliserte moderskap (ved notering involvering i en forelder-lærerforening) og noen gjorde det ikke. Correll og kolleger fant at studentene var mindre tilbøyelige til å anbefale å ansette mødrene, og at de tilbød dem en lavere startlønn. Videre, ved hjelp av en statistisk analyse av både rangeringer og ansettelsesrelaterte beslutninger, oppdaget Correll og kollegaer at mødre ulemper ble for stor grad forklart av at de ble vurdert lavere når det gjaldt kompetanse og engasjement. Dette laboratorieforsøket tillot derfor Correll og kollegaer å måle en årsakssammenheng og gi en mulig forklaring på den effekten.

Selvfølgelig kan man være skeptisk til å trekke konklusjoner om hele det amerikanske arbeidsmarkedet basert på beslutninger fra noen få hundre studenter som sannsynligvis aldri har hatt en heltidsjobb, enda mindre ansatt noen. Derfor har Correll og kolleger også gjennomført et utfyllende felteksperiment. De reagerte på hundrevis av annonserte jobbåpninger med falske deksjonsbrev og fortsetter. I likhet med materialene som vises til undergraduates, gjenopptas noen signalerte moderskap, og noen gjorde det ikke. Correll og kolleger fant at mødre var mindre tilbøyelige til å bli kalt tilbake til intervjuer enn like kvalifiserte barnløse kvinner. Med andre ord opptrådte virkelige arbeidsgivere som gjorde konsekvensbeslutninger i en naturlig setting mye som undergraduates. Gjorde de samme beslutninger av samme grunn? Dessverre vet vi ikke. Forskerne kunne ikke be arbeidsgivere å vurdere kandidatene eller forklare sine beslutninger.

Dette eksperimentet viser mye om laboratorie- og felteksperimenter generelt. Lab eksperimenter tilbyr forskere nesten total kontroll over miljøet der deltakerne tar beslutninger. Så, for eksempel, i laboratorieeksperimentet var Correll og kollegaer i stand til å sikre at alle CVene ble lest i rolige omgivelser; i felteksperimentet, kan noen av CVene ikke engang blitt lest. Videre, fordi deltakerne i laboratorieinnstillingen vet at de blir studert, kan forskere ofte samle tilleggsdata som kan bidra til å forklare hvorfor deltakerne tar sine beslutninger. For eksempel spurte Correll og kollegaer deltakere i laboratorieeksperimentet for å rangere kandidatene i forskjellige dimensjoner. Denne typen prosessdata kan hjelpe forskere til å forstå mekanismene bak forskjellene i hvordan deltakere behandler CVene.

På den annen side, disse nøyaktig samme egenskaper som jeg nettopp har beskrevet som fordeler, blir også noen ganger betraktet som ulemper. Forskere som foretrekker felteksperimenter hevder at deltakere i laboratorieeksperimenter kan fungere veldig annerledes fordi de vet at de blir studert. For eksempel, i laboratorieeksperimentet, kunne deltakerne gjette målet med forskningen og forandret deres oppførsel for ikke å virke forutinntatt. Videre kan forskere som foretrekker felteksperimenter hevder at små forskjeller i gjenopptak bare kan skille seg ut i et veldig rent, sterilt laboratoriemiljø, og dermed vil laboratorieeksperimentet overvurdere effekten av morskap på virkelige ansettelsesbeslutninger. Endelig kritiserer mange tilhengere av felteksperimenter laboratorieeksperimenter avhengighet av WEIRD-deltakere: hovedsakelig studenter fra vestlige, utdannede, industrialiserte, rike og demokratiske land (Henrich, Heine, and Norenzayan 2010a) . Forsøkene av Correll og kollegaer (2007) illustrerer de to ytterpunktene på lab-feltet kontinuum. I mellom disse to ekstremer er det også en rekke hybriddesigner, inkludert tilnærminger som å bringe ikke-studenter inn i et laboratorium eller gå inn i feltet, men fremdeles har deltakerne en uvanlig oppgave.

I tillegg til labfield-dimensjonen som eksisterte tidligere, innebærer den digitale tidsalderen at forskere nå har en annen stor dimensjon som eksperimenter kan variere: analog-digital. Akkurat som det er rene laboratorieeksperimenter, rene felteksperimenter, og en rekke hybrider i mellom, er det rene analoge eksperimenter, rene digitale eksperimenter og en rekke hybrider. Det er vanskelig å tilby en formell definisjon av denne dimensjonen, men en nyttig arbeidsdefinisjon er at helt digitale eksperimenter er eksperimenter som bruker digital infrastruktur til å rekruttere deltakere, randomisere, levere behandlinger og måle utfall. For eksempel var Restivo og van de Rijts (2012) studie av barnstars og Wikipedia et helt digitalt eksperiment fordi det brukte digitale systemer for alle fire trinnene. På samme måte bruker ikke helt analoge eksperimenter digital infrastruktur for noen av disse fire trinnene. Mange av de klassiske eksperimentene i psykologi er fullt analoge eksperimenter. Mellom disse to ekstremer er det delvis digitale eksperimenter som bruker en kombinasjon av analoge og digitale systemer.

Når noen tenker på digitale eksperimenter, tenker de umiddelbart på eksperimenter på nettet. Dette er uheldig fordi mulighetene til å kjøre digitale eksperimenter ikke bare er online. Forskere kan kjøre delvis digitale eksperimenter ved å bruke digitale enheter i den fysiske verden for å kunne levere behandlinger eller måle utfall. For eksempel kan forskere bruke smarttelefoner til å levere behandlinger eller sensorer i det byggede miljøet for å måle resultater. Faktisk, som vi vil se senere i dette kapittelet, har forskere allerede brukt (Allcott 2015) til å måle resultater i eksperimenter om energiforbruk som involverer 8,5 millioner husholdninger (Allcott 2015) . Ettersom digitale enheter blir stadig mer integrert i menneskers liv og sensorer blir integrert i det byggede miljøet, vil disse mulighetene for å kjøre delvis digitale eksperimenter i den fysiske verden øke dramatisk. Med andre ord, digitale eksperimenter er ikke bare onlineeksperimenter.

Digitale systemer skaper nye muligheter for eksperimenter overalt langs lab-feltet kontinuum. I rene laboratorieeksperimenter kan for eksempel forskere bruke digitale systemer for finere måling av deltakeres oppførsel; Et eksempel på denne typen forbedret måling er øyesporingsutstyr som gir presise og kontinuerlige tiltak for blikkplassering. Den digitale tidsalderen skaper også muligheten for å kjøre lab-lignende eksperimenter på nettet. For eksempel har forskere raskt vedtatt Amazon Mechanical Turk (MTurk) for å rekruttere deltakere til online eksperimenter (figur 4.2). MTurk matcher "arbeidsgivere" som har oppgaver som må fylles ut med "arbeidere" som ønsker å fullføre disse oppgavene for penger. I motsetning til tradisjonelle arbeidsmarkeder, krever de involverte oppgaver vanligvis bare noen få minutter å fullføre, og hele samspillet mellom arbeidsgiver og arbeidstaker er online. Fordi MTurk etterligner aspekter ved tradisjonelle laboratorieforsøk, betaler folk å fullføre oppgaver som de ikke ville gjøre gratis - det er naturlig egnet for bestemte typer eksperimenter. I hovedsak har MTurk opprettet infrastrukturen for å administrere et basseng av deltakerne - rekruttere og betale folk - og forskere har utnyttet den infrastrukturen for å få tak i en alltid tilgjengelig gruppe av deltakere.

Figur 4.2: Papers publisert ved hjelp av data fra Amazon Mechanical Turk (MTurk). MTurk og andre nettbaserte arbeidsmarkeder tilbyr forskere en praktisk måte å rekruttere deltakere på for eksperimenter. Tilpasset fra Bohannon (2016).

Figur 4.2: Papers publisert ved hjelp av data fra Amazon Mechanical Turk (MTurk). MTurk og andre nettbaserte arbeidsmarkeder tilbyr forskere en praktisk måte å rekruttere deltakere på for eksperimenter. Tilpasset fra Bohannon (2016) .

Digitale systemer skaper enda flere muligheter for feltlignende eksperimenter. Spesielt lar de forskere kombinere de stramme kontroll- og prosessdataene som er knyttet til laboratorieeksperimenter med de mer varierte deltakere og mer naturlige innstillinger som er knyttet til laboratorieeksperimenter. I tillegg tilbyr digitale felteksperimenter også tre muligheter som har tendens til å være vanskelig i analoge eksperimenter.

For det første, mens de fleste analoge laboratorie- og felteksperimenter har hundrevis av deltakere, kan digitale felteksperimenter ha millioner av deltakere. Denne endringen i skala er fordi enkelte digitale eksperimenter kan produsere data med null variabel kostnad. Det vil si at når forskere har opprettet en eksperimentell infrastruktur, øker antall deltakere vanligvis ikke økningen. Å øke antall deltakere med en faktor på 100 eller mer er ikke bare en kvantitativ endring; Det er en kvalitativ endring, fordi det gjør det mulig for forskere å lære forskjellige ting fra eksperimenter (f.eks. heterogenitet av behandlingseffekter) og å drive helt forskjellige eksperimentelle utførelser (for eksempel store gruppeeksperimenter). Dette punktet er så viktig, jeg kommer tilbake til slutten av kapitlet når jeg gir råd om å skape digitale eksperimenter.

For det andre, mens de fleste analoge laboratorie- og felteksperimenter behandler deltakerne som uutslettelige widgets, bruker digitale felteksperimenter ofte bakgrunnsinformasjon om deltakere i design- og analysefasen av forskningen. Denne bakgrunnsinformasjonen, som kalles forbehandlingsinformasjon , er ofte tilgjengelig i digitale eksperimenter fordi de kjøres på toppen av alltid-på målesystemer (se kapittel 2). For eksempel har en forsker på Facebook mye mer forhåndsbehandlingsinformasjon om personer i sitt digitale felteksperiment enn en universitetsforsker har om folket i sitt analoge felteksperiment. Denne forbehandling muliggjør mer effektive eksperimentelle utførelser som blokkering (Higgins, Sävje, and Sekhon 2016) og målrettet rekruttering av deltakere (Eckles, Kizilcec, and Bakshy 2016) - og mer innsiktsfull analyse - som estimering av heterogenitet av behandlingseffekter (Athey and Imbens 2016a) og kovariatjustering for forbedret presisjon (Bloniarz et al. 2016) .

For det tredje, mens mange analoge laboratorie- og felteksperimenter leverer behandlinger og måler utfall i en relativt komprimert tid, skjer noen digitale felteksperimenter over langt lengre tidsrammer. For eksempel hadde Restivo og van de Rijts eksperiment utfallet målt hver dag i 90 dager, og en av forsøkene jeg forteller om senere i kapittelet (Ferraro, Miranda, and Price 2011) spores utfall over tre år på utgangspunktet nei koste. Disse tre mulighetsstørrelsene, forhåndsbehandlingsinformasjon og langsgående behandlings- og utfallsdata oppstår mest når eksperimenter kjøres utover kontinuerlige målesystemer (se kapittel 2 for mer om kontinuerlige målesystemer).

Mens digitale felteksperimenter tilbyr mange muligheter, deler de også svakheter med både analoglaboratorier og analogfelteksperimenter. Eksperimenter kan for eksempel ikke brukes til å studere fortiden, og de kan bare estimere virkningene av behandlinger som kan manipuleres. Selv om eksperimenter uten tvil er nyttige for å veilede politikken, kan den nøyaktige veiledningen de tilbyr, være noe begrenset på grunn av komplikasjoner som (Banerjee and Duflo 2009; Deaton 2010) , complianceproblemer og likevektseffekter (Banerjee and Duflo 2009; Deaton 2010) . Digitale felteksperimenter forstørrer også de etiske problemene som er opprettet av felteksperimenter. Et emne jeg skal adressere senere i dette kapittelet og i kapittel 6.