4.3 To dimensioner af eksperimenter: lab-felt og analog-digital

Denne oversættelse blev skabt af en computer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.3 To dimensioner af eksperimenter: lab-felt og analog-digital

Lab eksperimenter tilbyde kontrol, markforsøg tilbyder realisme, og digitale markforsøg kombinerer kontrol og realisme på skalaen.

Eksperimenter kommer i mange forskellige former og størrelser. Men trods disse forskelle, har forskere fundet det nyttigt at organisere eksperimenter langs et kontinuum mellem lab eksperimenter og feltforsøg. Men nu forskere skal også organisere eksperimenter langs et kontinuum mellem analoge eksperimenter og digitale eksperimenter. Dette to-dimensionelle design plads vil hjælpe dig med at forstå styrker og svagheder ved forskellige tilgange og foreslå områder med størst mulighed (Figur 4.1).

Figur 4.1: Skematisk af design plads til eksperimenter. I fortiden, eksperimenter varierede langs lab-field dimension. Nu er de også variere på analog-digital dimension. Efter min mening, området største mulighed er digitale markforsøg.

I fortiden, den vigtigste måde at forskere organiserede eksperimenter var langs lab-feltet dimension. De fleste eksperimenter i samfundsvidenskaberne er lab forsøg, hvor studerende udfører mærkelige opgaver i et laboratorium til kursus kredit. Denne type forsøg dominerer forskning i psykologi fordi det giver forskere at skabe meget specifikke behandlinger designet til at teste meget specifikke teorier om social adfærd. For visse problemer, men noget føles lidt mærkeligt ved tegning stærke konklusioner om menneskelig adfærd fra sådanne usædvanlige mennesker, der udfører sådanne usædvanlige opgaver i sådan en usædvanlig indstilling. Disse bekymringer har ført til en bevægelse i retning af markforsøg. Markforsøg kombinerer stærkt design af randomiserede kontrolforsøg med flere repræsentative grupper af deltagere, der udfører mere almindelige opgaver, i mere naturlige omgivelser.

Selvom nogle mennesker tænker på lab og markforsøg som konkurrerende metoder, er det bedst at tænke på dem som komplementære metoder med forskellige styrker og svagheder. For eksempel Correll, Benard, and Paik (2007) anvendes både en lab eksperiment og et felt eksperiment i et forsøg på at finde kilderne til "moderskab straf." I USA, mødre tjener færre penge end barnløse kvinder, selv når sammenligner kvinder med lignende kvalifikationer, der arbejder i lignende stillinger. Der er mange mulige forklaringer på dette mønster, og en er, at arbejdsgiverne er forudindtaget mod mødre. (Interessant, det modsatte synes at være tilfældet for fædre: de har en tendens til at tjene mere end sammenlignelige barnløse mænd). For at vurdere mulig skævhed mod mødre, Correll og kolleger kørte to forsøg: en i laboratoriet og én i marken.

Først i et laboratorium eksperiment Correll og kolleger fortalte deltagerne, som var kollegium bachelorer, at en California-baserede start-up kommunikation selskab foretog en søgning beskæftigelse for en person til at lede sin nye østkyst marketingafdeling. Eleverne fik at vide, at selskabet ønskede deres hjælp i ansættelsen, og de blev bedt om at gennemgå CV'er af flere potentielle kandidater, og at bedømme kandidaterne på en række dimensioner såsom deres intelligens, varme og engagement til at arbejde. Desuden blev eleverne spurgt, om de vil anbefale leje ansøgeren, og hvad de vil anbefale som en startlønnen. Ukendt for de studerende, men de genoptager blev specifikt konstrueret til at være ens bortset fra én ting: nogle af de genoptages signalerede barsel (ved notering deltagelse i en forældre-lærer forening) og nogle ikke. Correll fandt, at de studerende var mindre tilbøjelige til at anbefale leje mødrene og tilbød dem lavere startløn. Endvidere gennem en statistisk analyse af både de ratings og de ansættende-relaterede beslutninger, Correll fandt, at mødres ulemper i vid udstrækning blev forklaret med, at mødrene blev vurderet lavere i form af kompetence og engagement. Med andre ord, Correll hævder, at disse træk er den mekanisme, gennem hvilken mødre er dårligt stillede. Således er denne lab eksperiment tilladt Correll og kolleger til at måle en kausal effekt og give en mulig forklaring på denne virkning.

Selvfølgelig kan man være skeptisk over at drage konklusioner om hele amerikanske arbejdsmarked baseret på beslutninger et par hundrede bachelorer, der har nok aldrig haft et fuldtidsjob, endsige hyret folk. Derfor Correll og kolleger også gennemført en supplerende markforsøg. Forskerne reagerede på hundredvis af annoncerede job åbninger ved at sende i falske følgebreve og CV'er. Svarende til de viste til bachelorer materialer, nogle genoptages signalerede moderskab og nogle gjorde ikke. Correll og kolleger fandt, at mødre var mindre tilbøjelige til at blive kaldt tilbage til interviews end lige kvalificerede barnløse kvinder. Med andre ord, reelle arbejdsgivere gør følgeskader beslutninger i naturlige omgivelser opførte sig meget ligesom studerende. Har de foretage lignende beslutninger af samme grund? Desværre ved vi ikke. Forskerne var ikke i stand til at bede arbejdsgiverne til at bedømme kandidaterne eller forklare deres beslutninger.

Dette par eksperimenter afslører en masse om lab og markforsøg i almindelighed. Lab eksperimenter tilbyder forskere nær total kontrol af miljøet, hvor deltagerne træffer beslutninger. Så for eksempel, i laboratoriet eksperimentet Correll kunne sikre, at alle genoptages blev aflæst i rolige omgivelser; inden forsøget, nogle af genoptages måske ikke engang er blevet læst. Endvidere fordi deltagerne i indstillingen lab ved, at de bliver undersøgt, forskere er ofte i stand til at indsamle yderligere data, der kan hjælpe dem til at forstå, hvorfor deltagerne gør deres beslutninger. For eksempel Correll spurgte deltagerne i laboratoriet eksperiment for at bedømme kandidaterne på forskellige dimensioner. Denne form for procesdata kunne hjælpe forskerne med at forstå mekanismerne bag forskelle i, hvordan deltagerne behandler genoptages.

På den anden side er netop disse samme egenskaber som jeg netop beskrevet som fordele også undertiden betragtes ulemper. Forskere, der foretrækker markforsøg hævder, at deltagerne i lab eksperimenter kunne fungere meget forskelligt, når de bliver nøje overholdt. For eksempel, i laboratoriet eksperiment deltagere måske har gættet målet med forskningen og ændret deres adfærd for ikke at fremstå forudindtaget. Endvidere kan forskere, der foretrækker markforsøg måske hævde, at små forskelle på genoptages kun skiller sig ud i en meget ren, sterilt laboratorium miljø, og dermed laboratoriet eksperimentet vil overvurdere effekten af moderskabet på virkelige leje beslutninger. Endelig er mange fortalere for markforsøg kritiserer lab forsøg afhængighed WEIRD deltagere: hovedsageligt studerende fra vestlige, Uddannet, industrialiseret, Rich og demokratiske lande (Henrich, Heine, and Norenzayan 2010) . Forsøgene efter Correll og kolleger (2007) illustrerer de to yderpunkter på laboratoriet-field kontinuum. Imellem disse to yderpunkter er der en række af hybrid designs, herunder tilgange såsom at bringe ikke-studerende i et laboratorium eller gå ind i feltet, men stadig har deltagerne udføre en usædvanlig opgave.

Ud over den lab-felt dimension, der har eksisteret tidligere, den digitale tidsalder betyder, at forskerne nu har en anden større dimension, langs hvilken eksperimenter kan variere: analog-digital. Ligesom der er rene lab forsøg, rene markforsøg, og en række hybrider i mellem, er der rene analoge eksperimenter, rene digitale eksperimenter, og en række hybrider. Det er svært at tilbyde en formel definition af denne dimension, men et nyttigt definition er, at fuldt digitale eksperimenter er eksperimenter, der gør brug af digital infrastruktur til at rekruttere deltagere, randomisere, levere behandlinger, og måle resultater. For eksempel Restivo og van de Rijt s (2012) studie af barnstars og Wikipedia var en fuldt digital eksperiment fordi det bruges digitale systemer for alle fire af disse trin. Ligeledes fuldt analoge eksperimenter er eksperimenter, der ikke gør brug af digital infrastruktur for nogen af disse fire trin. Mange af de klassiske eksperimenter i psykologi er analoge eksperimenter. Imellem disse to yderpunkter er der delvist digitale eksperimenter, der bruger en kombination af analoge og digitale systemer til de fire trin.

Kritisk, at de muligheder køre digitale eksperimenter er ikke bare online. Forskere kan køre delvist digitale eksperimenter ved hjælp af digitale apparater i den fysiske verden for at levere behandlinger eller måle resultater. For eksempel kunne forskerne bruge smartphones til at levere behandlinger eller sensorer i det byggede miljø til at måle resultater. Faktisk som vi vil se senere i dette kapitel, forskere har allerede brugt hjem el-målere til at måle resultater i forsøg om sociale normer og energiforbrug involverer 8,5 millioner husstande (Allcott 2015) . Som digitale enheder bliver mere og mere integreret i folks liv og sensorer blive integreret i det byggede miljø, til disse muligheder køre delvist digitale eksperimenter i den fysiske verden vil stige dramatisk. Med andre ord, digitale eksperimenter er ikke bare online eksperimenter.

Digitale systemer skaber nye muligheder for eksperimenter overalt langs lab-feltet kontinuum. I rene lab forsøg, for eksempel, kan forskerne bruge digitale systemer til finere måling af deltagernes adfærd; et eksempel på denne type af forbedret måling er eye-tracking udstyr, som giver præcise og kontinuerlige målinger af blik placering. Den digitale tidsalder skaber også mulighed for at køre lab-lignende eksperimenter online. For eksempel har forskere hurtigt vedtaget Amazon Mechanical Turk (MTurk) at rekruttere deltagere til online eksperimenter (Figur 4.2). MTurk matcher "arbejdsgivere", der har opgaver, der skal udfyldes med "arbejdstagere" der ønsker at færdiggøre disse opgaver for pengene. I modsætning til traditionelle arbejdsmarked, men de opgaver, der er involveret kræver normalt kun få minutter at udfylde, og hele samspillet mellem arbejdsgiver og arbejdstager er virtuel. Fordi MTurk efterligner aspekter af traditionelle lab forsøg-betalende folk til at udføre opgaver, som de ikke ville gøre for free-det naturligt velegnet til visse typer eksperimenter. Væsentlige, har MTurk skabt infrastrukturen til styring af en pulje af deltagere-rekruttering og betale folk-og forskere har benyttet sig af denne infrastruktur til at udnytte en altid tilgængelig pulje af deltagere.

Figur 4.2: Papers offentliggjort ved hjælp af data fra Amazon Mechanical Turk (MTurk) (Bohannon 2016) . MTurk og andre online arbejdsmarkeder tilbyde forskere en bekvem måde at rekruttere deltagere til eksperimenter.

Digitale eksperimenter skabe endnu flere muligheder for marken-lignende eksperimenter. Digitale markforsøg kan tilbyde stram kontrol og behandle data til at forstå mulige mekanismer (som lab eksperimenter) og mere forskelligartede deltagere gør reelle beslutninger i et naturligt miljø (ligesom markforsøg). Ud over denne kombination af gode egenskaber af tidligere eksperimenter, digitale markforsøg tilbyder også tre muligheder, der var vanskelige i analoge lab og markforsøg.

Først, mens de fleste analoge lab og markforsøg har hundredvis af deltagere, kan digitale markforsøg har millioner af deltagere. Denne ændring i skala er, fordi nogle digitale eksperimenter kan producere data på nul variable omkostninger. Det vil sige, når forskere har skabt en eksperimentel infrastruktur, at øge antallet af deltagere typisk ikke øge omkostningerne. Forøgelse af antallet af deltagere med en faktor 100 eller mere er ikke bare en kvantitativ forandring, det er en kvalitativ ændring, fordi det giver forskerne at lære forskellige ting fra forsøg (f.eks heterogenitet behandling effekter) og køre helt forskellige eksperimentelle designs ( fx store gruppe eksperimenter). Dette punkt er så vigtigt, vil jeg vende tilbage til det i slutningen af kapitlet, når jeg rådgiver om at skabe digitale eksperimenter.

For det andet, mens de fleste analoge lab og markforsøg behandle deltagerne så skelnes widgets, digitale markforsøg bruger ofte baggrundsoplysninger om deltagerne i design og analyse stadier af forskning. Denne baggrundsinformation, som kaldes forbehandling information, er ofte tilgængelige i digitale eksperimenter, fordi de finder sted i fuldt målte miljøer. For eksempel, en forsker ved Facebook har meget mere forbehandling information end en forsker designe en standard lab eksperiment med bachelorer. Denne information forbehandling giver forskerne at bevæge sig ud over behandling af deltagere så skelnes widgets. Mere specifikt forbehandling information muliggør mere effektive forsøgsdesign-såsom at blokere (Higgins, Sävje, and Sekhon 2016) og målrettet rekruttering af deltagere (Eckles, Kizilcec, and Bakshy 2016) -Og mere indsigtsfuld analyse-såsom estimering af heterogenitet af behandlingseffekter (Athey and Imbens 2016a) og kovariat justering for forbedret præcision (Bloniarz et al. 2016) .

For det tredje, mens mange analoge lab og markforsøg levere behandlinger og måle resultater i en forholdsvis komprimeret mængde tid, nogle digitale markforsøg indebærer behandlinger, der kan leveres over tid, og virkningerne kan også måles over tid. For eksempel Restivo og van de Rijt eksperiment har resultatet målt dagligt i 90 dage, og en af de forsøg, jeg vil fortælle dig om senere i kapitlet (Ferraro, Miranda, and Price 2011) spor resultater over 3 år på dybest set ingen koste. Disse tre muligheder størrelse, information forbehandling, og langsgående behandling og effektmål data-er mest almindelige, når eksperimenter køres på toppen af altid-on måling systemer (se kapitel 2 for mere om altid-på målesystemer).

Mens digitale markforsøg tilbyder mange muligheder, de også deler nogle svagheder med både analoge lab og markforsøg. For eksempel kan eksperimenter ikke anvendes til at studere fortiden, og de kan kun estimere virkningerne af behandlinger, der kan manipuleres. Også, selv om eksperimenter er utvivlsomt nyttigt at styre politikken, den nøjagtige vejledning, de kan tilbyde, er noget begrænset på grund af komplikationer såsom miljømæssig afhængighed, compliance-problemer, og ligevægts effekter (Banerjee and Duflo 2009; Deaton 2010) . Endelig digitale markforsøg forstørre de etiske betænkeligheder skabt af markforsøg. Fortalere for markforsøg trompet deres evne til diskret og tilfældigt gribe ind følgeskader beslutninger, som millioner af mennesker. Disse funktioner giver visse videnskabelige fordele, men de kan også gøre markforsøg etisk kompleks (tænke over det som forskere behandler folk som "lab rotter" på en massiv skala). Yderligere, i tillæg til eventuelle skader til deltagerne, digitale markforsøg, på grund af deres omfang, kan også hæve bekymringer om afbrydelse af arbejdet sociale systemer (f.eks bekymringer om at forstyrre Wikipedias belønning system, hvis Restivo og van der Rijt gav for mange barnstars) .