4.4.1 Platnosť

Platnosť sa odkazuje na koľko výsledky experimentu podporovať všeobecnejší záver.

Žiadny experiment nie je dokonalý a vedci vyvinuli rozsiahlu slovnú zásobu na popísanie možných problémov. Platnosť sa vzťahuje na rozsah, v akom výsledky konkrétneho experimentu podporujú nejaký všeobecnejší záver. Sociálni vedci zistili, že je užitočné rozdeliť platnosť na štyri hlavné typy: platnosť štatistického záveru, vnútorná platnosť, konštrukčná platnosť a vonkajšia platnosť (Shadish, Cook, and Campbell 2001, chap. 2) . Ovládanie týchto konceptov vám poskytne duševný kontrolný zoznam na kritiku a zlepšenie návrhu a analýzy experimentu a pomôže vám komunikovať s ostatnými výskumníkmi.

Platnosť štatistického záveru sa zameriava na to, či sa štatistická analýza pokusu vykonala správne. V kontexte Schultz et al. (2007) , takáto otázka by sa mohla sústrediť na to, či správne vypočítali svoje \(p\) . Štatistické princípy, ktoré je potrebné navrhnúť a analyzovať, sú mimo rozsahu tejto knihy, ale v digitálnom veku sa zásadne nezmenili. Zmenilo sa však to, že dátové prostredie v digitálnych experimentoch vytvorilo nové príležitosti, ako napríklad používanie metód strojového učenia na odhad heterogenity účinkov liečby (Imai and Ratkovic 2013) .

Interná platnosť sa zameriava na to, či boli experimentálne postupy vykonané správne. Návrat k experimentu Schultz et al. (2007) sa otázky týkajúce sa vnútornej platnosti môžu sústrediť na randomizáciu, poskytovanie liečby a meranie výsledkov. Mohli by ste sa napríklad obávať, že výskumní asistentky spoľahlivo nečítali elektrické meracie prístroje. V skutočnosti sa Schultz a kolegovia obávali tohto problému a mali vzorku metrov čítaných dvakrát; našťastie boli výsledky v podstate identické. Vo všeobecnosti sa zdá, že experiment Schultza a kolegov má vysokú vnútornú platnosť, ale nie vždy to platí: komplexné experimenty na poli a on-line sa často stretávajú s problémami, ktoré skutočne prinášajú správnu liečbu správnym ľuďom a merajú výsledky pre každého. Digitálny vek našťastie môže našťastie pomôcť znížiť obavy o vnútornú platnosť, pretože teraz je ľahšie zabezpečiť, aby sa liečba poskytovala tým, ktorí ju majú prijať, a aby merali výsledky pre všetkých účastníkov.

Konštrukcia platnosti sa sústreďuje na zhodu medzi údajmi a teoretickými konštruktmi. Ako sa uvádza v kapitole 2, konštrukty sú abstraktné pojmy, o ktorých vedia sociálni vedci. Bohužiaľ, tieto abstraktné pojmy nemajú vždy jasné definície a merania. Návrat k Schultz et al. (2007) , tvrdenie, že príkazné sociálne normy môžu znížiť spotrebu elektrickej energie, vyžaduje, aby výskumníci navrhli liečbu, ktorá by manipulovala "príkazné sociálne normy" (napr. Emotikony) a merať "využívanie elektriny". V analógových experimentoch mnohí vedci navrhli svoje vlastné liečby a merali svoje vlastné výsledky. Tento prístup zabezpečuje, aby experimenty v čo najväčšej miere odpovedali študovaným abstraktným konštruktom. V digitálnych experimentoch, kde vedci spolupracujú s firmami alebo vládami na poskytovaní liečby a používajú vždy na dátové systémy na meranie výsledkov, môže byť súvislosť medzi experimentom a teoretickými konštruktmi menej obmedzená. Preto očakávam, že platnosť konštruktu bude mať tendenciu byť väčším problémom v digitálnych experimentoch ako v analógových experimentoch.

Nakoniec, externá platnosť sa zameriava na to, či možno výsledky tohto experimentu zovšeobecniť na iné situácie. Návrat k Schultz et al. (2007) , možno sa opýtať, či by táto tá istá myšlienka - poskytla ľuďom informácie o ich spotrebe energie vo vzťahu k ich rovesníkom a signál príkazných noriem (napr. Emotikony) - by znížila spotrebu energie, ak by to bolo urobené iným spôsobom v inom nastavení. Pre väčšinu dobre navrhnutých a dobre spustených experimentov je najťažšie riešiť obavy z vonkajšej platnosti. V minulosti sa tieto diskusie o vonkajšej platnosti často netýkali len skupiny ľudí sediacich v miestnosti a snažili sa predstaviť, čo by sa stalo, ak by sa postupy vykonali iným spôsobom alebo na inom mieste alebo s rôznymi účastníkmi , Našťastie digitálny vek umožňuje výskumníkom prekonať tieto špekulácie bez údajov a externe zhodnotiť empiricky.

Pretože výsledky od Schultz et al. (2007) boli tak vzrušujúce, spoločnosť s názvom Opower spolupracovala s verejnými službami v Spojených štátoch, aby nasadili liečbu širšie. Na základe návrhu Schultz et al. (2007) spoločnosť Opower vytvorila prispôsobené správy o domácej spotrebe energie, ktoré obsahovali dva hlavné moduly: jeden ukazujúci spotrebu elektrickej energie domácnosti v porovnaní s jej susedmi s emotikonom a druh poskytujúci tipy na zníženie spotreby energie (obrázok 4.6). Potom spoločnosť Opower v spolupráci s výskumnými pracovníkmi vykonala randomizované kontrolované experimenty na posúdenie vplyvu týchto správ o domácej energii. Napriek tomu, že liečby v týchto experimentoch boli zvyčajne dodávané fyzicky - zvyčajne prostredníctvom staromódnej snailovej pošty - výsledok bol meraný pomocou digitálnych zariadení vo fyzickom svete (napr. Merače výkonu). Navyše, ako manuálne zhromažďovanie týchto informácií s asistentmi výskumu navštevujúcimi každý dom, pokusy Opower boli vykonané v spolupráci s energetickými spoločnosťami, ktoré umožnili výskumným pracovníkom prístup k čítaniu energie. Tieto čiastočne digitálne terénne experimenty sa teda uskutočňovali v masívnom meradle pri nízkych variabilných nákladoch.

Obrázok 4.6: Výkazy domácej energie mali modul sociálneho porovnania a modul akčných krokov. Reprodukcia na základe povolenia spoločnosti Allcott (2011), obrázky 1 a 2.

Obrázok 4.6: Výkazy domácej energie mali modul sociálneho porovnania a modul akčných krokov. Reprodukcia na základe povolenia spoločnosti Allcott (2011) , obrázky 1 a 2.

V prvej sade pokusov, ktoré zahŕňali 600 000 domácností z 10 rôznych lokalít, spoločnosť Allcott (2011) zistila, že správa o domácej energii znížila spotrebu elektrickej energie. Inými slovami, výsledky z oveľa väčšej a geografickejšie odlišnej štúdie boli kvalitatívne podobné výsledkom od Schultz et al. (2007) . Ďalej, v následnom výskume, ktorý zahŕňal osem miliónov ďalších domácností z 101 rôznych lokalít, spoločnosť Allcott (2015) znovu zistila, že správa o domácej energii trvalo znížila spotrebu elektrickej energie. Táto oveľa väčšia sada experimentov tiež odhalila zaujímavý nový vzorec, ktorý by nebol viditeľný v žiadnom jednotlivom experimente: veľkosť účinku poklesla v neskorších pokusoch (obrázok 4.7). Allcott (2015) špekuloval, že k tomuto poklesu došlo, pretože v priebehu času sa liečba aplikovala na rôzne typy účastníkov. Konkrétnejšie, nástroje s viac zákazníkmi zameranými na životné prostredie s väčšou pravdepodobnosťou prijali program skôr a ich zákazníci reagovali citlivejšie na liečbu. Keďže programy s menej zákazníkmi zameranými na životné prostredie prijali program, jeho účinnosť sa zrejme znižovala. Tak ako náhodná randomizácia v experimentoch zabezpečuje, že liečba a kontrolná skupina sú podobné, randomizácia na výskumných miestach zabezpečuje, že odhady sa môžu zovšeobecniť z jednej skupiny účastníkov na všeobecnejšiu populáciu (pozrite sa do kapitoly 3 o odbere vzoriek). Ak sa na miestach výskumu nevyberajú náhodne, potom generalizácia - dokonca aj z dokonale navrhnutého a vykonaného experimentu - môže byť problematická.

Obrázok 4.7: Výsledky 111 experimentov, ktoré testujú vplyv správy o domácej energii na spotrebu elektrickej energie. Na miestach, kde bol program prijatý neskôr, mala tendenciu mať menšie účinky. Allcott (2015) tvrdí, že hlavným zdrojom tohto modelu je to, že stránky so zákazníkmi viac zameranými na životné prostredie skôr prijali program skôr. Úprava z Allcott (2015), obrázok 3.

Obrázok 4.7: Výsledky 111 experimentov, ktoré testujú vplyv správy o domácej energii na spotrebu elektrickej energie. Na miestach, kde bol program prijatý neskôr, mala tendenciu mať menšie účinky. Allcott (2015) tvrdí, že hlavným zdrojom tohto modelu je to, že stránky so zákazníkmi viac zameranými na životné prostredie skôr prijali program skôr. Úprava z Allcott (2015) , obrázok 3.

Spoločne tieto 111 experimentov - 10 v spoločnosti Allcott (2011) a 101 v spoločnosti Allcott (2015) zahŕňalo približne 8,5 milióna domácností z celého Spojeného kráľovstva. Dôsledne preukazujú, že domáce správy o energii znižujú priemernú spotrebu elektrickej energie, výsledok, ktorý podporuje pôvodné zistenia Schultza a kolegov z 300 domov v Kalifornii. Okrem toho, že sa tieto pôvodné výsledky opakovali, následné experimenty tiež ukazujú, že veľkosť efektu sa líši podľa polohy. Táto sada experimentov tiež ilustruje dve ďalšie všeobecné body o čiastočne digitálnych terénnych experimentoch. Po prvé, výskumníci budú môcť empiricky riešiť obavy týkajúce sa externej platnosti, ak sú náklady na spustenie experimentov nízke, a to môže nastať, ak sa výsledok už meria v neustálom dátovom systéme. Preto navrhuje, aby výskumníci hľadali ďalšie zaujímavé a dôležité správanie, ktoré už sú zaznamenané, a potom navrhnúť experimenty nad túto existujúcu meraciu infraštruktúru. Po druhé, tento súbor experimentov nám pripomína, že experimenty s digitálnymi poľami nie sú len on-line; čoraz viac očakávam, že budú všade s mnohými výsledkami meranými senzormi v zastavanom prostredí.

Štyri typy platnosti - platnosť štatistického záveru, vnútorná platnosť, platnosť konštrukcie a vonkajšia platnosť - poskytujú mentálny kontrolný zoznam, ktorý pomáha výskumníkom posúdiť, či výsledky konkrétneho experimentu podporujú všeobecnejší záver. V porovnaní s experimentmi v analógovom veku by v experimentoch v digitálnom veku malo byť jednoduchšie zvládnuť externú platnosť empiricky a malo by byť tiež jednoduchšie zabezpečiť vnútornú platnosť. Na druhej strane, problémy s konštrukčnou platnosťou budú pravdepodobne náročnejšie v experimentoch v digitálnom veku, najmä pri experimentoch na digitálnom poli, ktoré zahŕňajú partnerstvá so spoločnosťami.