4.4.1 Vlefshmëria

Vlefshmëria referohet se sa rezultatet e një eksperimenti të mbështetur një konkluzion më të përgjithshme.

Asnjë eksperiment nuk është perfekt, dhe studiuesit kanë zhvilluar një fjalor të gjerë për të përshkruar problemet e mundshme. Vlefshmëria i referohet masës në të cilën rezultatet e një eksperimenti të caktuar mbështesin një përfundim më të përgjithshëm. Shkencëtarët socialë e kanë gjetur të dobishme për të ndarë vlefshmërinë në katër lloje kryesore: vlefshmëria e përfundimit të statistikave, vlefshmëria e brendshme, konstruktimi i vlefshmërisë dhe vlefshmëria e jashtme (Shadish, Cook, and Campbell 2001, chap. 2) . Zotërimi i këtyre koncepteve do t'ju ofrojë një listë kontrolluese mendore për të kritikuar dhe përmirësuar dizajnin dhe analizën e një eksperimenti, dhe do t'ju ndihmojë të komunikoni me studiues të tjerë.

Vlefshmëria e përfundimeve statistikore përqendrohet rreth analizës statistikore të eksperimentit të bërë në mënyrë korrekte. Në kontekstin e Schultz et al. (2007) , një pyetje e tillë mund të përqendrohet nëse ata llogarisin vlerat e tyre \(p\) mënyrë korrekte. Parimet statistikore duhet të hartojnë dhe analizojnë eksperimentet janë përtej qëllimit të këtij libri, por ato nuk kanë ndryshuar rrënjësisht në epokën dixhitale. Ajo që ka ndryshuar, megjithatë, është se mjedisi i të dhënave në eksperimentet dixhitale ka krijuar mundësi të reja të tilla si përdorimi i metodave të mësimit të makinës për të vlerësuar heterogjenitetin e efekteve të trajtimit (Imai and Ratkovic 2013) .

Qendrat e vlefshmërisë së brendshme përqendrohen nëse procedurat eksperimentale janë kryer në mënyrë korrekte. Duke iu kthyer eksperimentit të Schultz et al. (2007) , pyetjet në lidhje me vlefshmërinë e brendshme mund të përqendrohen rreth randomizimit, shpërndarjes së trajtimit dhe matjes së rezultateve. Për shembull, mund të jeni të shqetësuar që asistentët e hulumtimit nuk i kanë lexuar në mënyrë të besueshme matësit elektrik. Në fakt, Schultz dhe kolegët ishin të shqetësuar për këtë problem, dhe ata kishin një mostër të metra lexuar dy herë; për fat të mirë, rezultatet ishin në thelb identike. Në përgjithësi, eksperimenti i Schultz dhe i kolegëve duket të ketë vlefshmëri të lartë të brendshme, por kjo nuk është gjithmonë rasti: fusha komplekse dhe eksperimentet online shpesh ballafaqohen me probleme që në të vërtetë i japin trajtim të duhur njerëzve të duhur dhe matjes së rezultateve për të gjithë. Për fat të mirë, mosha dixhitale mund të ndihmojë në zvogëlimin e shqetësimeve rreth vlefshmërisë së brendshme, sepse tani është më e lehtë të sigurohet se trajtimi u jepet atyre që duhet të marrin atë dhe të matin rezultatet për të gjithë pjesëmarrësit.

Ndërtimi i qendrave të vlefshmërisë rreth ndeshjes midis të dhënave dhe konstrukteve teorike. Siç u diskutua në kapitullin 2, konstruktet janë koncepte abstrakte që shkencëtarët socialë arsyetojnë. Për fat të keq, këto koncepte abstrakte jo gjithmonë kanë përkufizime dhe matje të qarta. Kthimi në Schultz et al. (2007) , pohimi se normat shoqërore të urdhrave mund të ulin përdorimin e energjisë elektrike kërkon që studiuesit të krijojnë një trajtim që do të manipulonte "normat shoqërore të urdhrave" (p.sh. një emoticon) dhe për të matur "përdorimin e energjisë elektrike". Në eksperimentet analoge, shumë kërkues hartuan trajtimet e tyre dhe matën rezultatet e tyre. Kjo qasje siguron që, sa më shumë që të jetë e mundur, eksperimentet përputhen me konstruktet abstrakte që studiohen. Në eksperimentet dixhitale ku hulumtuesit bashkëpunojnë me kompani ose qeveri për të ofruar trajtime dhe përdorin gjithmonë sistemet e të dhënave për të matur rezultatet, ndeshja mes eksperimentit dhe konstrukteve teorike mund të jetë më pak e ngushtë. Kështu, unë pres që konstruktimi i vlefshmërisë do të jetë një shqetësim më i madh në eksperimentet dixhitale sesa në eksperimentet analoge.

Së fundi, qendrat e vlefshmërisë së jashtme përqendrohen nëse rezultatet e këtij eksperimenti mund të përgjithësohen në situata të tjera. Kthimi në Schultz et al. (2007) , mund të pyetet nëse kjo ide e njëjtë - duke u dhënë njerëzve informacion rreth përdorimit të tyre të energjisë në raport me bashkëmoshatarët e tyre dhe një sinjal të normave urdhëruese (p.sh. një emoticon) - do të reduktonte përdorimin e energjisë nëse do të ishte bërë në një mënyrë tjetër në një mjedis të ndryshëm. Për shumicën e eksperimenteve të dizajnuara mirë dhe të mirë-drejtuar, shqetësimet për vlefshmërinë e jashtme janë më të vështirat për tu adresuar. Në të kaluarën, këto debate mbi vlefshmërinë e jashtme shpesh përfshinin më shumë se një grup njerëzish të ulur në një dhomë duke u përpjekur të imagjinonin se çfarë do të kishte ndodhur nëse procedurat do të ishin bërë në një mënyrë tjetër, ose në një vend tjetër, ose me pjesëmarrës të ndryshëm . Për fat të mirë, mosha digjitale u mundëson hulumtuesve të lëvizin përtej këtyre spekulimeve pa të dhëna dhe të vlerësojnë vlefshmërinë e jashtme në mënyrë empirike.

Për shkak se rezultatet nga Schultz et al. (2007) ishin kaq emocionuese, një kompani me emrin Opower u bashkua me shërbimet publike në Shtetet e Bashkuara për të vendosur trajtimin më gjerësisht. Bazuar në hartimin e Schultz et al. (2007) , Opower krijoi raporte të personalizuara për energjinë shtëpiake që kishin dy module kryesore: një që tregonte përdorimin e energjisë elektrike të familjes në krahasim me fqinjët e saj me një emoticon dhe një këshilla për uljen e përdorimit të energjisë (figura 4.6). Pastaj, në partneritet me kërkuesit, Opower kreu eksperimente të kontrolluara me randomizim për të vlerësuar ndikimin e këtyre Raporteve të Energjisë në Shtëpi. Megjithëse trajtimet në këto eksperimente u dorëzuan zakonisht fizikisht - zakonisht përmes postës së plehrave të modës së vjetër - rezultati është matur duke përdorur pajisje digjitale në botën fizike (p.sh., matësit e fuqisë). Për më tepër, në vend që të grumbullonin me dorë këtë informacion me asistentë hulumtuesish që vizitonin çdo shtëpi, eksperimentet Opower u bënë të gjitha në partneritet me kompanitë e energjisë që u mundësojnë hulumtuesve qasje në leximet e energjisë. Kështu, këto eksperimente pjesërisht digjitale në terren u drejtuan në një shkallë masive me kosto të ulët të ndryshueshme.

Figura 4.6: Raportet e Energjisë në Shtëpi kishin Modulin e Krahasimit Social dhe Modulin e Hapave të Veprimit. Riprodhuar me lejen e Allcott (2011), figurat 1 dhe 2.

Figura 4.6: Raportet e Energjisë në Shtëpi kishin Modulin e Krahasimit Social dhe Modulin e Hapave të Veprimit. Riprodhuar me lejen e Allcott (2011) , figurat 1 dhe 2.

Në një grup të parë eksperimentesh që përfshijnë 600,000 familje nga 10 vende të ndryshme, Allcott (2011) gjeti se Raporti për Energji të Brendshme uli konsumin e energjisë elektrike. Me fjalë të tjera, rezultatet nga studimi shumë më i madh, më gjeografikisht të ndryshme, ishin në mënyrë cilësore të ngjashme me rezultatet e Schultz et al. (2007) . Më tej, në hulumtimet e mëtejshme që përfshijnë tetë milionë familje të tjera nga 101 vende të ndryshme, Allcott (2015) përsëri gjeti se Raporti i Energjisë në Shtëpi vazhdimisht uli konsumin e energjisë elektrike. Ky grup shumë i madh i eksperimenteve zbuloi gjithashtu një model të ri interesant që nuk do të ishte i dukshëm në asnjë eksperiment të vetëm: madhësia e efektit ra në eksperimentet e mëvonshme (figura 4.7). Allcott (2015) spekuloi se kjo rënie ka ndodhur, sepse me kalimin e kohës, trajtimi është duke u aplikuar për lloje të ndryshme pjesëmarrësish. Më konkretisht, shërbimet me konsumatorë më të fokusuar në mjedis kanë më shumë mundësi të miratojnë programin më herët, dhe klientët e tyre ishin më të përgjegjshëm ndaj trajtimit. Pasi që shërbimet me klientët më pak të fokusuar në mjedisin e miratoi programin, efektiviteti i tij duket se po binte. Kështu, ashtu si randomizimi në eksperimente siguron që grupi i trajtimit dhe kontrollit janë të ngjashme, randomizimi në vendet e hulumtimit siguron që vlerësimet mund të përgjithësohen nga një grup pjesëmarrësish në një popullsi më të përgjithshme (rishikoni kapitullin 3 për marrjen e mostrave). Nëse vendet e hulumtimit nuk përzihen në mënyrë të rastësishme, atëherë përgjithësimi - madje edhe nga një eksperiment i projektuar dhe i kryer në mënyrë të përkryer - mund të jetë problematik.

Figura 4.7: Rezultatet e 111 eksperimenteve që testojnë efektin e Raportit të Energjisë në Shtëpi për Konsumin e Energjisë Elektrike. Në vendet ku programi u miratua më vonë, ai ka tendencë të ketë efekte më të vogla. Allcott (2015) argumenton se një burim i madh i këtij modeli është që faqet me klientë më të fokusuar në mjedisin kanë më shumë gjasa të miratojnë programin më herët. Përshtatur nga Allcott (2015), figura 3.

Figura 4.7: Rezultatet e 111 eksperimenteve që testojnë efektin e Raportit të Energjisë në Shtëpi për Konsumin e Energjisë Elektrike. Në vendet ku programi u miratua më vonë, ai ka tendencë të ketë efekte më të vogla. Allcott (2015) argumenton se një burim i madh i këtij modeli është që faqet me klientë më të fokusuar në mjedisin kanë më shumë gjasa të miratojnë programin më herët. Përshtatur nga Allcott (2015) , figura 3.

Së bashku, këto 111 eksperimente - 10 në Allcott (2011) dhe 101 në Allcott (2015) përfshirë rreth 8.5 milion familje nga e gjithë Shtetet e Bashkuara. Ata vazhdimisht tregojnë se Raportet e Energjisë në Shtëpi pakësojnë konsumin mesatar të energjisë elektrike, një rezultat që mbështet gjetjet origjinale të Schultz dhe kolegët nga 300 shtëpi në Kaliforni. Përtej përsëritjes së këtyre rezultateve origjinale, eksperimentet pasuese gjithashtu tregojnë se madhësia e efektit ndryshon nga lokacioni. Ky grup eksperimentesh gjithashtu ilustron dy pika më të përgjithshme rreth eksperimenteve pjesërisht digjitale në terren. Së pari, hulumtuesit do të jenë në gjendje të empirikisht të adresojnë shqetësimet në lidhje me vlefshmërinë e jashtme kur kostoja e drejtimit të eksperimenteve është e ulët dhe kjo mund të ndodhë nëse rezultati tashmë është duke u matur nga një sistem gjithnjë në të dhënat. Prandaj, sugjeron që hulumtuesit duhet të jenë në vëzhgim për sjellje të tjera interesante dhe të rëndësishme që tashmë janë duke u regjistruar, dhe pastaj të krijojnë eksperimente në krye të kësaj infrastrukture matëse ekzistuese. Së dyti, ky grup eksperimentesh na kujton se eksperimentet në fushën digjitale nuk janë vetëm në internet; gjithnjë e më shumë, pres që ata të jenë kudo me shumë rezultate të matura nga sensorë në mjedisin e ndërtuar.

Katër llojet e vlefshmërisë së përfundimit të vlefshmërisë, përfundimit të statistikave, vlefshmërisë së brendshme, ndërtimit të vlefshmërisë dhe vlefshmërisë së jashtme, ofrojnë një listë kontrolli mendor për të ndihmuar studiuesit të vlerësojnë nëse rezultatet nga një eksperiment i caktuar mbështesin një përfundim më të përgjithshëm. Krahasuar me eksperimentet në moshë analoge, në eksperimentet e moshës digjitale, duhet të jetë më e lehtë për të adresuar vlefshmërinë e jashtme në mënyrë empirike dhe gjithashtu duhet të jetë më e lehtë për të siguruar vlefshmërinë e brendshme. Nga ana tjetër, çështjet e ndërtimit të vlefshmërisë ndoshta do të jenë më sfiduese në eksperimentet e moshës digjitale, veçanërisht në eksperimentet në fushën digjitale që përfshijnë partneritete me kompanitë.