4.4.1 Valideco

Tiu traduko estis kreitaj de komputilo. ×

4.4.1 Valideco

Valideco rilatas al kiom la rezultoj de eksperimento apogas pli ĝeneralan konkludon.

Neniu eksperimento estas perfekta, kaj esploristoj disvolvis vastan vortotrezoron por priskribi eblajn problemojn. Valideco rilatas al la grado, al kiu la rezultoj de aparta eksperimento subtenas pli ĝeneralan konkludon. Sociaj scienculoj trovis ĝin utila dividi validecon en kvar ĉefajn specojn: statistika konkluda valideco, interna valideco, konstruado de valideco kaj ekstera valideco (Shadish, Cook, and Campbell 2001, chap. 2) . Instrui ĉi tiujn konceptojn donos al vi mensan kontrolon por kritikado kaj plibonigo de la dezajno kaj analizo de eksperimento, kaj ĝi helpos vin komuniki kun aliaj esploristoj.

Statistika konkluda valoro centras ĉu la statistika analizo de la eksperimento fariĝis ĝuste. En la kunteksto de Schultz et al. (2007) , tia demando povus centri ĉu ili kalkulis ĝuste \(p\) -valoroj. La statistikaj principoj devas desegni kaj analizi eksperimentojn estas preter la amplekso de ĉi tiu libro, sed ili ne esence ŝanĝis en la cifereca aĝo. Kio ŝanĝis, tamen, estas, ke la datuma medio en ciferecaj eksperimentoj kreis novajn ŝancojn, kiel uzi maŝinajn metodojn por taksi la heterogenecon de traktado-efektoj (Imai and Ratkovic 2013) .

Interna valideco centras ĉu la eksperimentaj proceduroj estis faritaj ĝuste. Revenante al la eksperimento de Schultz et al. (2007) , demandoj pri interna valideco povus centri ĉirkaŭ hazardigo, transdono de traktado kaj mezurado de rezultoj. Ekzemple, vi povus zorgi pri tio, ke la esploraj helpantoj ne legis la elektrajn metrojn fidinde. Fakte, Schultz kaj kolegoj maltrankviliĝis pri ĉi tiu problemo, kaj ili havis ekzemplon da metroj legataj dufoje; feliĉe, la rezultoj estis esence identaj. Ĝenerale, la eksperimento de Schultz kaj kolegoj ŝajnas havi altan internan validecon, sed ĉi tio ne ĉiam estas la kazo: kompleksa kampo kaj enretaj eksperimentoj ofte kaŭzas problemojn efektive transdonante la ĝustan kuracadon al la ĝentilaj homoj kaj mezurante la rezultojn por ĉiuj. Feliĉe, la cifereca aĝo povas helpi redukti zorgojn pri interna valideco ĉar nun estas pli facile certigi, ke la traktado estas transdonita al tiuj, kiuj supozas ricevi ĝin kaj por mezuri rezultojn por ĉiuj partoprenantoj.

Konstrui validecajn centrojn ĉirkaŭ la matĉo inter la datumoj kaj la teoriaj konstruoj. Laŭ diskutado en ĉapitro 2, konstruoj estas abstraktaj konceptoj, kiujn temas pri sociaj sciencistoj. Bedaŭrinde, ĉi tiuj abstraktaj konceptoj ne ĉiam havas klarajn difinojn kaj mezuradojn. Revenante al Schultz et al. (2007) , la aserto, ke ordinaraj sociaj normoj povas malpliigi elektron-uzadon postulas esploristojn por desegni traktadon, kiu manipulus "ordinarajn sociajn normojn" (ekzemple emocicon) kaj mezuri "elektran uzon". En analogaj eksperimentoj, multaj esploristoj desegnis siajn proprajn traktadojn kaj mezuris siajn proprajn rezultojn. Ĉi tiu alproksimiĝo certigas, ke la eksperimentoj kongruas kun la abstrakta konstruaĵo, kiel eble plej eble. En ciferecaj eksperimentoj, kie esploristoj kunlaborantoj kun kompanioj aŭ registaroj transdonas traktadojn kaj uzas ĉiam-datumajn sistemojn por mezuri rezultojn, la egaleco inter la eksperimento kaj la teoriaj konstruoj povas esti malpli streĉa. Tiel mi esperas, ke konstrui validecon inklinas esti pli granda maltrankvilo en ciferecaj eksperimentoj ol en analogaj eksperimentoj.

Fine, ekstera valideco centras ĉu la rezultoj de ĉi tiu eksperimento povas esti komunigitaj al aliaj situacioj. Revenante al Schultz et al. (2007) , oni povus demandi ĉu ĉi tiu sama ideo-provizi homojn kun informo pri ilia energia uzado en rilato kun siaj samuloj kaj signalo de ordinaraj normoj (ekz. Emocicon) - povus redukti energian uzadon se ĝi fariĝis malsame en malsama agordo. Por plej bone desegnitaj kaj bone kuritaj eksperimentoj, zorgoj pri ekstera valideco estas la plej malfacilaj por trakti. En la pasinteco, ĉi tiuj debatoj pri ekstera valideco ofte okupis nenion pli ol grupo de homoj sidantaj en ĉambro provante imagi, kio okazos, se la proceduroj estis faritaj de alia maniero aŭ en alia loko aŭ kun malsamaj partoprenantoj . Feliĉe, la cifereca aĝo permesas esploristojn transirante ĉi tiujn senpagajn spekuladojn kaj taksi eksteran validecon empirike.

Ĉar la rezultoj de Schultz et al. (2007) estis tiel ekscita, kompanio nomata Opower asociita kun utilecoj en Usono por disfaldi la traktadon pli vaste. Bazita sur la dezajno de Schultz et al. (2007) , Opower kreis personecigitajn Hejmajn Energiajn Raportojn, kiuj havis du ĉefajn modulojn: unu montrante elektronan uzadon de hejmo rilate al siaj najbaroj kun emocicon kaj unu provizanta konsilojn por malpliigi energian uzadon (figuro 4.6). Tiam, kunlabore kun esploristoj, Opower kuris hazarde kontrolitajn eksperimentojn por taksi la efikon de ĉi tiuj Hejma Energio-Raportoj. Eĉ kvankam la traktadoj en ĉi tiuj eksperimentoj kutime estis senditaj fizike kutime tra antikvaj helikoj. La rezulto estis mezurita uzante ciferecajn aparatojn en la fizika mondo (ekz., Potencoj). Plie, anstataŭ kolektante ĉi tiun informon kun esploraj asistantoj vizitantaj ĉiun domon, la Opower-eksperimentoj estis faritaj kune kun potencaj kompanioj, kiuj ebligis al la esploristoj aliri la potencajn legadojn. Tiel, ĉi tiuj parte ciferecaj eksperimentoj de kampo estis kuritaj al masiva skalo je malalta varia kosto.

Figuro 4.6: La Hejma Energia Raporto havis Socian Komparilan Modulon kaj Ago-Paŝan Modulon. Reproduktita per permeso de Allcott (2011) , ciferoj 1 kaj 2.

En unua serio de eksperimentoj engaĝantaj 600,000 hejmojn el 10 malsamaj lokoj, Allcott (2011) trovis, ke la Hejma Energia Raporto malpliigis elektran konsumon. Alivorte, la rezultoj de la multe pli granda, pli geografie diversa studo estis kvalite simila al la rezultoj de Schultz et al. (2007) . Plue, en postaj esploroj engaĝante ok milionoj aldonaj hemanari de 101 malsamaj lokoj, Allcott (2015) denove trovis, ke la Hejmo Energio Raporti konsekvence mallevis elektro konsumado. Ĉi tiu multe pli granda aro de eksperimentoj ankaŭ malkaŝis interesan novan mastron, kiu ne videblas en iu eksperimento: la grandeco de la efiko malpliiĝis en la postaj eksperimentoj (figuro 4.7). Allcott (2015) spekulis, ke ĉi tiu malkresko okazis ĉar, tra la tempo, la traktado estis aplikata al malsamaj tipoj de partoprenantoj. Pli specife, utilecoj kun pli ekologie koncentritaj klientoj pli verŝajne adoptis la programon pli frue, kaj iliaj klientoj estis pli respondemaj al la traktado. Kiel utilecoj kun malpli ekologie-koncentritaj klientoj adoptis la programon, ĝia efikeco ŝajnis malpliiĝi. Tiel, same kiel hazardigo en eksperimentoj certigas, ke la traktado kaj kontrolo estas similaj, hazarda en esplor-ejoj certigas, ke la taksoj povas esti komunigitaj de unu grupo de partoprenantoj al pli ĝenerala loĝantaro (pensu reen al ĉapitro 3 pri sampado). Se esploraj ejoj ne estas specimenitaj hazarde, tiam ĝeneraligo - eĉ de perfekte desegnita kaj efektivigita eksperimento - povas esti problema.

Figuro 4.7: Rezultoj de 111 eksperimentoj provante la efikon de la Hejma Energia Raporto pri elektra konsumo. En lokoj, kie la programo estis adoptita poste, ĝi inklinis havi pli malgrandajn efikojn. Allcott (2015) asertas, ke grava fonto de ĉi tiu ŝablono estas, ke lokoj kun pli ekologiaj koncentritaj klientoj pli probable supozis la programon antaŭe. Adaptita de Allcott (2015) , figuro 3.

Kune, ĉi tiuj 111 eksperimentoj-10 en Allcott (2011) kaj 101 en Allcott (2015) -volvis ĉirkaŭ 8.5 milionojn da hejmoj de la tuta Usono. Ili konstante montras, ke Home Energy Reports reduktas mezan elektronan konsumon, rezulto kiu subtenas la originalajn rezultojn de Schultz kaj kolegoj de 300 hejmoj en Kalifornio. Pli ol simple replikante ĉi tiujn originalajn rezultojn, la sekvaj eksperimentoj ankaŭ montras, ke la grandeco de la efiko varias laŭ loko. Ĉi tiu aro de eksperimentoj ankaŭ ilustras du pli ĝeneralajn punktojn pri parte ciferecaj kampoj-eksperimentoj. Unue, esploristoj povos empirike direkti maltrankvilojn pri ekstera valideco, kiam la kosto kuŝi eksperimentojn estas malalta, kaj tio povas okazi se la rezulto jam estas mezurita de ĉiam-datumistemo. Sekve, ĝi sugestas, ke esploristoj devus serĉi aliajn interesajn kaj gravajn kondutojn, kiuj jam estas registritaj, kaj tiam desegnas eksperimentojn super ĉi tiu ekzistanta mezurstrukturo. Due, ĉi tiu aro de eksperimentoj memorigas nin, ke ciferecaj kampoj eksperimentoj ne estas nur enretaj; ĉiufoje pli, mi esperas, ke ili estos ĉie kun multaj rezultoj mezuritaj de sensiloj en la konstruita medio.

La kvar specoj de valideco-statistika konkludo valideco, interna valideco, konstruas validecon kaj eksteran validecon-provizas mensan kontrollistliston por helpi esploristojn taksi ĉu la rezultoj de aparta eksperimento subtenas pli ĝeneralan konkludon. Kompare kun analogaj aksimentoj, en ciferecaj eksperimentoj, ĝi devus esti pli facile trakti eksteran validecon empirike, kaj ĝi ankaŭ devus esti pli facila certigi interna valideco. Aliflanke, temoj pri konstrua valideco verŝajne estos pli malfacilaj en ciferecaj eksperimentoj, precipe ciferecaj kampo-eksperimentoj, kiuj kunlaboras kun kompanioj.