4.4.1 Geldigheid

Hierdie vertaling is geskep deur 'n rekenaar. ×

4.4.1 Geldigheid

Geldigheid verwys na hoeveel die resultate van 'n eksperiment te ondersteun 'n meer algemene gevolgtrekking.

Geen eksperiment is perfek nie, en navorsers het 'n uitgebreide woordeskat ontwikkel om moontlike probleme te beskryf. Geldigheid verwys na die mate waarin die resultate van 'n spesifieke eksperiment 'n meer algemene gevolgtrekking ondersteun. Sosiale wetenskaplikes het gevind dat dit nuttig is om geldigheid in vier hoofsoorte te verdeel: statistiese gevolgtrekkingsgeldigheid, interne geldigheid, konstrukgeldigheid, en eksterne geldigheid (Shadish, Cook, and Campbell 2001, chap. 2) . Deur hierdie konsepte te bemeester, sal u 'n hoofkontrolelys vir kritiek en verbetering van die ontwerp en analise van 'n eksperiment aan u verskaf, en u sal u help om met ander navorsers te kommunikeer.

Statistiese gevolgtrekking geldigheid sentreer of die statistiese analise van die eksperiment korrek gedoen is. In die konteks van Schultz et al. (2007) , kan so 'n vraag op die vraag of hulle hul \(p\) -waardes korrek bereken het. Die statistiese beginsels moet eksperimente ontwerp en ontleed wat buite die omvang van hierdie boek val, maar hulle het nie fundamenteel verander in die digitale era nie. Wat egter verander het, is dat die data-omgewing in digitale eksperimente nuwe geleenthede geskep het, soos die gebruik van masjienleermetodes om die heterogeniteit van behandelingseffekte (Imai and Ratkovic 2013) te skat.

Interne geldigheid sentreer of die eksperimentele prosedures korrek uitgevoer is. Terugkeer na die eksperiment van Schultz et al. (2007) , kan vrae oor interne geldigheid rondom randomisering, aflewering van behandeling en meting van uitkomste sentreer. Jy kan byvoorbeeld bekommerd wees dat die navorsingsassistente nie die elektriese meters betroubaar gelees het nie. Trouens, Schultz en kollegas was bekommerd oor hierdie probleem, en hulle het 'n steekproef van meter twee keer gelees; Gelukkig was die resultate in wese identies. Oor die algemeen blyk Schultz en kollegas se eksperiment 'n hoë interne geldigheid te hê, maar dit is nie altyd die geval nie: komplekse veld- en aanlyn-eksperimente lei dikwels tot probleme wat die regte behandeling aan die regte mense bied en die uitkomste vir almal meet. Gelukkig kan die digitale era help om bekommernisse oor interne geldigheid te verminder, aangesien dit nou makliker is om te verseker dat die behandeling aan diegene wat veronderstel is om dit te ontvang, ontvang word en om uitkomste vir alle deelnemers te meet.

Konstrueer geldigheidsentrums rondom die wedstryd tussen die data en die teoretiese konstrukte. Soos bespreek in hoofstuk 2, is konstrukte abstrakte konsepte waaroor sosiale wetenskaplikes redeneer. Ongelukkig het hierdie abstrakte konsepte nie altyd duidelike definisies en metings nie. Terugkeer na Schultz et al. (2007) , die eis dat voornemende maatskaplike norme die gebruik van elektrisiteit kan verlaag, vereis dat navorsers 'n behandeling moet ontwerp wat "injunctive social norms" (bv. 'N emosie) sal manipuleer en elektrisiteitsgebruik meet. In analoog eksperimente het baie navorsers hul eie behandelings ontwerp en hul eie uitkomste gemeet. Hierdie benadering verseker dat die eksperimente soveel as moontlik ooreenstem met die abstrakte konstrukte wat bestudeer word. In digitale eksperimente waar navorsers met maatskappye of regerings saamwerk om behandelings te lewer en altyd-op-datastelsels gebruik om uitkomste te meet, kan die wedstryd tussen die eksperiment en die teoretiese konstrukte minder strak wees. So, ek verwag dat konstruksiegeldigheid geneig sal wees om 'n groter bekommernis in digitale eksperimente as in analoog eksperimente te wees.

Uiteindelik sentreer eksterne geldigheid of die resultate van hierdie eksperiment veralgemeen kan word in ander situasies. Terugkeer na Schultz et al. (2007) , kan 'n mens vra of dieselfde idee om mense te voorsien van inligting oor hul energieverbruik in verhouding tot hul eweknieë en 'n sein van voorwaardelike norme (bv. 'N emosie), sal die energieverbruik verminder as dit op 'n ander manier gedoen word in 'n ander omgewing. Vir die meeste goed ontwerpte en goed-beheerde eksperimente is kommer oor eksterne geldigheid die moeilikste om aan te spreek. In die verlede het hierdie debatte oor eksterne geldigheid dikwels niks meer as 'n groep mense wat in 'n kamer sit, probeer om te dink wat sou gebeur het as die prosedures op 'n ander manier gedoen is, of op 'n ander plek of met verskillende deelnemers . Gelukkig maak die digitale tydperk navorsers die geleentheid om buite hierdie datavrye spekulasies te beweeg en die eksterne geldigheid empiries te assesseer.

Omdat die resultate van Schultz et al. (2007) was so opwindend, 'n maatskappy genaamd Opower, wat saam met nutsdienste in die Verenigde State was, om die behandeling wyer te implementeer. Gebaseer op die ontwerp van Schultz et al. (2007) , het Opower persoonlike Home Energy Verslae geskep wat twee hoofmodules gehad het: een wat 'n huishouding se elektrisiteitsverbruik ten opsigte van sy bure toon met 'n emosie en een wat wenke verskaf om energieverbruik te verlaag (Figuur 4.6). Dan, in vennootskap met navorsers, het Opower gerandomiseerde beheerde eksperimente uitgevoer om die impak van hierdie Home Energy Reports te assesseer. Alhoewel die behandelings in hierdie eksperimente fisiek gewoonlik deur middel van outydse slakposte fisiek gelewer is, is die uitkoms gemeet met behulp van digitale toestelle in die fisiese wêreld (bv. Kragmeters). Verder, eerder as om hierdie inligting handmatig te versamel met navorsingsassistente wat elke huis besoek, is die Opower-eksperimente alles in samewerking met kragondernemings gedoen sodat die navorsers toegang tot die kraglesings kon verkry. Dus, hierdie gedeeltelik digitale veld eksperimente was teen 'n massiewe skaal teen lae veranderlike koste.

Figuur 4.6: Die Huishoudingsverslae het 'n Sosiale Vergelyking Module en 'n Aksiestap Module. Herproduksie met toestemming van Allcott (2011) , figure 1 en 2.

In 'n eerste stel eksperimente wat 600,000 huishoudings van 10 verskillende webwerwe behels, het Allcott (2011) bevind dat die Home Energy Report die elektrisiteitsverbruik verlaag. Met ander woorde, die resultate van die veel groter, meer geografies uiteenlopende studie was kwalitatief soortgelyk aan die resultate van Schultz et al. (2007) . Verder, in daaropvolgende navorsing met agt miljoen addisionele huishoudings van 101 verskillende webwerwe, het Allcott (2015) weer bevind dat die Huis Energieverslag die elektrisiteitsverbruik konsekwent verlaag het. Hierdie veel groter stel eksperimente het ook 'n interessante nuwe patroon vertoon wat nie in enige eksperiment sigbaar sou wees nie: die grootte van die effek het in die latere eksperimente afgeneem (figuur 4.7). Allcott (2015) gespekuleer dat hierdie afname plaasgevind het, want die behandeling is oor tyd toegepas op verskillende tipes deelnemers. Meer spesifiek, nutsprogramme met meer omgewingsgerigte kliënte was meer geneig om die program vroeër aan te neem, en hul kliënte was meer reageer op die behandeling. Aangesien nutsdienste met minder omgewingsgerigte kliënte die program aanvaar het, het die effektiwiteit daarvan afgeneem. So, net soos randomisering in eksperimente verseker dat die behandelings- en kontrolegroep soortgelyk is, verseker randomisering in navorsingssterreine dat die ramings van een groep deelnemers tot 'n meer algemene bevolking genegee kan word (dink terug na hoofstuk 3 oor steekproefneming). As navorsingswerwe nie ewekansig gemonster word nie, kan veralgemening - selfs van 'n perfek ontwerpte en uitgevoer eksperiment - problematies wees.

Figuur 4.7: Resultate van 111 eksperimente wat die effek van die Huishoudelike Energieverslag oor elektrisiteitsverbruik toets. Op plekke waar die program later aangeneem is, het dit geneig om kleiner effekte te hê. Allcott (2015) beweer dat 'n belangrike bron van hierdie patroon is dat webwerwe met meer omgewingsgerigte kliënte meer geneig was om die program vroeër aan te neem. Aangepas uit Allcott (2015) , figuur 3.

Saam het hierdie 111 eksperimente -10 in Allcott (2011) en 101 in Allcott (2015) ongeveer 8,5 miljoen huishoudings van regoor die Verenigde State betrokke. Hulle toon konsekwent dat Home Energy Reports die gemiddelde elektrisiteitsverbruik verminder, wat die oorspronklike bevindinge van Schultz en kollegas van 300 huise in Kalifornië ondersteun. Behalwe dat hierdie oorspronklike resultate net herhaal word, toon die opvolg-eksperimente ook dat die grootte van die effek op plek verskil. Hierdie stel eksperimente illustreer ook twee meer algemene punte oor gedeeltelik digitale veld eksperimente. Eerstens sal navorsers empiries kan bekommerd wees oor eksterne geldigheid wanneer die koste van lopende eksperimente laag is, en dit kan voorkom as die uitkoms reeds gemeet word deur 'n altyd-op-datastelsel. Daarom stel dit voor dat navorsers op die uitkyk moet wees vir ander interessante en belangrike gedrag wat reeds aangeteken word, en dan eksperimente op te stel bo die bestaande meetinfrastruktuur. Tweedens, hierdie stel eksperimente herinner ons aan dat digitale veld eksperimente nie net aanlyn is nie; Ek verwag al hoe meer dat hulle oral sal wees met baie uitkomste wat deur sensors in die beboude omgewing gemeet word.

Die vier tipes geldigheids-statistiese gevolgtrekkingsgeldigheid, interne geldigheid, konstruksiegeldigheid en eksterne geldigheid. Gee 'n hoofkontrolelys om navorsers te help om te bepaal of die resultate van 'n spesifieke eksperiment 'n meer algemene gevolgtrekking ondersteun. In vergelyking met analoog-ouderdom eksperimente, in digitale leeftyd eksperimente, behoort dit makliker te wees om eksterne geldigheid empiries aan te spreek, en dit moet ook makliker wees om interne geldigheid te verseker. Aan die ander kant sal kwessies van konstruksievaardigheid waarskynlik meer uitdagend wees in digitale-eeue-eksperimente, veral digitale veld eksperimente wat vennootskappe met maatskappye insluit.