4.4.1 gyldighed

Denne oversættelse blev skabt af en computer. ×

4.4.1 gyldighed

Gyldighed refererer til, hvor meget resultaterne af et eksperiment støtte en mere generel konklusion.

Intet eksperiment er perfekt, og forskere har udviklet et omfattende ordforråd for at beskrive mulige problemer. Gyldighed refererer til, i hvilket omfang resultaterne af et bestemt eksperiment understøtter en mere generel konklusion. Socialforskere har fundet det nyttigt at opdele gyldigheden i fire hovedtyper: statistisk konklusionsgyldighed, intern validitet, konstruktiv validitet og ekstern validitet (Shadish, Cook, and Campbell 2001, chap. 2) . Mastering af disse begreber vil give dig en mental checkliste for kritik og forbedring af design og analyse af et eksperiment, og det vil hjælpe dig med at kommunikere med andre forskere.

Statistisk konklusion gyldighed centrerer om, om den statistiske analyse af eksperimentet blev gjort korrekt. I sammenhæng med Schultz et al. (2007) , kan et sådant spørgsmål være centreret om, hvorvidt de har beregnet deres $p$ -værdier korrekt. De statistiske principper skal designe og analysere eksperimenter er uden for denne bogs omfang, men de har ikke fundamentalt ændret sig i den digitale tidsalder. Det, der er ændret, er imidlertid, at (Imai and Ratkovic 2013) i digitale eksperimenter har skabt nye muligheder, såsom at bruge maskinindlæringsmetoder til at estimere heterogenitet af behandlingseffekter (Imai and Ratkovic 2013) .

Intern validitet centrerer sig om, om forsøgsforløbet blev udført korrekt. Tilbagevendende til eksperimentet af Schultz et al. (2007) , kunne spørgsmål om intern validitet være centreret omkring randomisering, behandling af behandling og måling af resultater. For eksempel kan du være bekymret for, at forskningsassistenterne ikke har læst de elektriske målere pålideligt. Faktisk var Schultz og kolleger bekymrede for dette problem, og de havde en stikprøve af måler læst to gange; Heldigvis var resultaterne i det væsentlige ens. Generelt synes Schultz og kollegers eksperiment at have høj intern validitet, men det er ikke altid tilfældet: Komplekst felt og online eksperimenter opstår ofte i problemer, der rent faktisk leverer den rigtige behandling til de rigtige mennesker og måler resultaterne for alle. Heldigvis kan den digitale tidsalder medvirke til at mindske bekymringerne for intern validitet, fordi det nu lettere er at sikre, at behandlingen leveres til dem, der skal modtage den, og at måle resultaterne for alle deltagere.

Konstruer validitetscentre omkring kampen mellem dataene og de teoretiske konstruktioner. Som diskuteret i kapitel 2 er konstruktioner abstrakte begreber, som socialforskere har grund til. Desværre har disse abstrakte begreber ikke altid klare definitioner og målinger. Tilbagevendende til Schultz et al. (2007) er kravet om, at forbudsmæssige sociale normer kan sænke elforbruget, forskere til at designe en behandling, der ville manipulere "injunctive social norms" (fx et humørikon) og måle "elbrug". I analoge forsøg har mange forskere designet deres egne behandlinger og målt deres egne resultater. Denne fremgangsmåde sikrer, at eksperimenterne så meget som muligt matcher de abstrakte konstruktioner, der studeres. I digitale eksperimenter, hvor forskere samarbejder med virksomheder eller regeringer om at levere behandlinger og altid bruger datasystemer til at måle resultater, kan kampen mellem eksperimentet og de teoretiske konstruktioner være mindre stramt. Således forventer jeg, at konstruktiv validitet vil være en større bekymring i digitale eksperimenter end i analoge eksperimenter.

Endelig centrerer ekstern validitet om resultaterne af dette eksperiment kan generaliseres til andre situationer. Tilbagevendende til Schultz et al. (2007) , kan man spørge, om denne samme idé giver folk information om deres energiforbrug i forhold til deres jævnaldrende og et signal om forbudende normer (fx et emoticon) - ville reducere energiforbruget, hvis det blev gjort på en anden måde i en anden indstilling. For de fleste veludformede og veldrevne eksperimenter er bekymringer om ekstern validitet det sværeste at tage fat på. Tidligere involverede disse debatter om ekstern validitet ofte ikke mere end en gruppe mennesker, der sad i et rum, forsøger at forestille sig, hvad der ville være sket, hvis procedurerne var blevet gjort på en anden måde eller på et andet sted eller med forskellige deltagere . Heldigvis gør den digitale tidsalder forskerne mulighed for at bevæge sig ud over disse datafrie spekulationer og vurdere empirisk ekstern validitet.

Fordi resultaterne fra Schultz et al. (2007) var så spændende, et firma ved navn Opower samarbejdede med forsyningsselskaber i USA for at udbrede behandlingen mere bredt. Baseret på designet af Schultz et al. (2007) skabte Opower tilpassede Home Energy Reports, der havde to hovedmoduler: En viser husstandens elforbrug i forhold til sine naboer med et humørikon og en, der giver tip til at sænke energiforbruget (figur 4.6). Derefter løb Opower i samarbejde med forskere randomiserede, kontrollerede eksperimenter for at vurdere virkningen af disse Home Energy Reports. Selv om behandlingerne i disse eksperimenter typisk blev leveret fysisk - normalt gennem gammeldags sneglepost - blev resultatet målt ved hjælp af digitale enheder i den fysiske verden (fx effektmålere). I stedet for manuelt at indsamle disse oplysninger med forskningsassistenter, der besøger hvert hus, blev Opower-forsøgene udført i samarbejde med energiselskaber, der gør det muligt for forskerne at få adgang til strømlæsningerne. Således blev disse delvist digitale felteksperimenter kørt i massiv skala til lave variable omkostninger.

Figur 4.6: Home Energy Reports havde en Social Comparison Module og et Action Steps Module. Reproduceret med tilladelse fra Allcott (2011) , figur 1 og 2.

I et første sæt eksperimenter, der involverede 600.000 husstande fra 10 forskellige steder, fandt Allcott (2011) , at Home Energy Report sænkede elforbruget. Med andre ord svarer resultaterne fra den meget større, mere geografisk forskelligartede undersøgelse kvalitativt til resultaterne fra Schultz et al. (2007) . Endvidere fandt Allcott (2015) i en efterfølgende undersøgelse, der involverede otte millioner flere husstande fra 101 forskellige steder, igen, at Home Energy Report konsekvent sænkede elforbruget. Dette meget større sæt eksperimenter afslørede også et interessant nyt mønster, der ikke ville være synligt i et enkelt eksperiment: effektens størrelse faldt i de senere forsøg (figur 4.7). Allcott (2015) spekulerede på, at dette fald er sket, fordi behandlingen over tid blev anvendt til forskellige typer deltagere. Mere specifikt var forsyningsselskaber med mere miljømæssigt fokuserede kunder mere tilbøjelige til at vedtage programmet tidligere, og deres kunder var mere lydhør over for behandlingen. Da forsyningsselskaber med mindre miljømæssigt fokuserede kunder vedtog programmet, syntes effektiviteten at falde. Således som randomisering i forsøg sikrer, at behandlings- og kontrolgruppen er ens, sikrer randomisering på forskningssteder, at estimaterne kan generaliseres fra en gruppe deltagere til en mere generel befolkning (tænk tilbage til kapitel 3 om prøveudtagning). Hvis forskningssteder ikke samples tilfældigt, kan generalisering - selv fra et perfekt designet og udført eksperiment - være problematisk.

Figur 4.7: Resultater af 111 forsøg, der testede effekten af Home Energy Report om elforbrug. På steder, hvor programmet blev vedtaget senere, havde det en tendens til at have mindre virkninger. Allcott (2015) hævder, at en væsentlig kilde til dette mønster er, at websteder med mere miljømæssigt fokuserede kunder var mere tilbøjelige til at vedtage programmet tidligere. Tilpasset fra Allcott (2015) , figur 3.

Sammen med disse 111 eksperimenter -10 i Allcott (2011) og 101 i Allcott (2015) involverede omkring 8,5 millioner husstande fra hele USA. De viser konsekvent, at Home Energy Reports reducerer det gennemsnitlige elforbrug, et resultat der understøtter de oprindelige fund fra Schultz og kolleger fra 300 boliger i Californien. Udover blot at replikere disse originale resultater viser opfølgningsforsøgene også, at størrelsen af effekten varierer efter placering. Dette sæt eksperimenter illustrerer også to mere generelle punkter om delvist digitale felteksperimenter. For det første vil forskerne kunne empirisk tage fat på bekymringer vedrørende ekstern validitet, når omkostningerne ved at køre eksperimenter er lave, og det kan ske, hvis resultatet allerede måles ved hjælp af et permanent datasystem. Derfor foreslås det, at forskere skal være på udkig efter andre interessante og vigtige adfærd, der allerede er optaget, og derefter designe eksperimenter oven på denne eksisterende måleinfrastruktur. For det andet minder dette sæt eksperimenter om, at digitale felteksperimenter ikke kun er online; I stigende grad forventer jeg, at de vil være overalt med mange resultater målt af sensorer i det byggede miljø.

De fire typer validitets-statistisk konklusionsgyldighed, intern validitet, konstruktiv validitet og ekstern validitet - giver en mental checkliste for at hjælpe forskere med at vurdere, om resultaterne fra et bestemt eksperiment understøtter en mere generel konklusion. Sammenlignet med analoge alder eksperimenter, i digitale alder eksperimenter, bør det være lettere at adressere ekstern validitet empirisk, og det bør også være lettere at sikre intern validitet. På den anden side vil problemer med konstruktiv validitet sandsynligvis være mere udfordrende i digitale alder eksperimenter, især digitale felt eksperimenter, der involverer partnerskaber med virksomheder.