4.2 Hva er eksperimenter?

Randomiserte kontrollerte forsøk har fire hovedingredienser: rekruttering av deltakere, randomisering av behandling, levering av behandlingen, og måling av resultater.

Randomiserte kontrollerte eksperimenter har fire hovedingredienser: rekruttering av deltakere, randomisering av behandling, levering av behandling og måling av resultater. Den digitale tidsalderen endrer ikke den grunnleggende naturen til eksperimentering, men det gjør det lettere logistisk. For eksempel har det tidligere vært vanskelig å måle oppførselen til millioner av mennesker, men det skjer nå rutinemessig i mange digitale systemer. Forskere som kan finne ut hvordan man kan utnytte disse nye mulighetene, vil kunne kjøre eksperimenter som var umulige tidligere.

For å gjøre dette alt litt mer konkret - både det som har blitt det samme og det som har endret seg - la oss vurdere et eksperiment av Michael Restivo og Arnout van de Rijt (2012) . De ønsket å forstå effekten av uformelle peerbelønninger på redaksjonelle bidrag til Wikipedia. Spesielt studerte de effektene av barnstars , en pris som noen Wikipedian kan gi til noen andre Wikipedianer for å anerkjenne hardt arbeid og due diligence. Restivo og van de Rijt ga barnstars til 100 fortjent Wikipedians. Deretter spores de mottakers etterfølgende bidrag til Wikipedia de neste 90 dagene. Til stor overraskelse hadde folkene tildelt de barnstars tendens til å gjøre færre endringer etter å ha mottatt en. Barnestars syntes med andre ord å være motløs snarere enn å oppmuntre til bidrag.

Heldigvis kjørte Restivo og van de Rijt ikke et eksperiment med "perturb og observere" De kjørte et randomisert kontrollert eksperiment. Så, i tillegg til å velge 100 topp bidragsytere til å motta en barnestjerne, valgte de også 100 toppbidragere til hvem de ikke ga en. Disse 100 tjente som en kontrollgruppe. Og det var kritisk at hvem som var i behandlingsgruppen og som var i kontrollgruppen ble bestemt tilfeldig.

Da Restivo og van de Rijt så på oppførselen til mennesker i kontrollgruppen, fant de at deres bidrag også ble redusert. Videre, da Restivo og van de Rijt sammenlignet personer i behandlingsgruppen (dvs. mottatte barnestars) til personer i kontrollgruppen, fant de at personer i behandlingsgruppen bidro med ca. 60% mer. Med andre ord, bidragene fra begge gruppene var deceasing, men de i kontrollgruppen gjorde så mye raskere.

Som denne studien illustrerer, er kontrollgruppen i eksperimenter kritisk på en måte som er noe paradoksal. For å kunne måle effekten av barnstjerner, behøvde Restivo og van de Rijt å observere folk som ikke fikk barnestars. Mange ganger, forskere som ikke er kjent med eksperimenter, ikke klarer å sette pris på den utrolige verdien av kontrollgruppen. Hvis Restivo og van de Rijt ikke hadde hatt en kontrollgruppe, ville de ha trukket nøyaktig feil konklusjon. Kontrollgrupper er så viktige at konsernsjef for et større kasino selskap har sagt at det kun er tre måter at ansatte kan bli sparket fra sitt firma: for tyveri, for seksuell trakassering eller for å kjøre et eksperiment uten en kontrollgruppe (Schrage 2011) .

Restivo og van de Rijts studie illustrerer de fire hovedingrediensene i et eksperiment: rekruttering, randomisering, intervensjon og resultater. Sammen gir disse fire ingrediensene forskerne mulighet til å bevege seg utover korrelasjoner og måle årsakseffekten av behandlinger. Spesifikt betyr randomisering at personer i behandlings- og kontrollgruppene vil være like. Dette er viktig fordi det betyr at enhver forskjell i utfall mellom de to gruppene kan tilskrives behandlingen og ikke en confounder.

I tillegg til å være en fin illustrasjon av eksperimentets mekanikk, viser restivo og van de Rijts studie også at logistikken til digitale eksperimenter kan være helt forskjellig fra analog eksperimenter. I Restivo og van de Rijts eksperiment var det enkelt å gi barnstjerne til noen, og det var lett å spore utfallet antall redigeringer over en lengre periode (fordi redigeringshistorikken automatisk blir registrert av Wikipedia). Denne muligheten til å levere behandlinger og måle utfall uten kostnad, er kvalitativt ulikt eksperimenter i det siste. Selv om dette eksperimentet involverte 200 personer, kunne det ha blitt kjørt med 2000 eller til og med 20 000 personer. Det viktigste som hindret forskerne i å oppskalere eksperimentet med en faktor på 100 var ikke koster; det var etikk. Det vil si at Restivo og van de Rijt ikke ville gi barnstars til uønskede redaktører, og de ønsket ikke at deres eksperiment skulle forstyrre Wikipedia-samfunnet (Restivo and Rijt 2012, 2014) . Jeg kommer tilbake til noen av de etiske hensynene som ble oppdaget av eksperimenter senere i dette kapittelet og i kapittel 6.

Konklusjonen viser at eksperimentet til Restivo og van de Rijt tydelig viser at mens logistikkens grunnleggende logikk ikke har endret seg, kan logistikken i digitale alderseksperimenter være dramatisk forskjellig. Deretter for å tydeligere isolere mulighetene skapt av disse endringene, sammenligner jeg eksperimenter som forskere kan gjøre nå med de slags eksperimenter som har blitt gjort tidligere.