4.4.1 Platnost

Tento překlad byl vytvořen na počítači. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.4.1 Platnost

Platnost se odkazuje na kolik výsledky experimentu podporovat obecnější závěr.

Žádný experiment není dokonalý, a výzkumníci vyvinuli rozsáhlou slovní zásobu k popisu možných problémů. Platnost se týká míry, do jaké výsledky konkrétního experimentu podporovat některé obecnější závěry. Sociální vědci zjistili, že je užitečné rozdělit platnost do čtyř hlavních typů: statistický závěr platnosti, vnitřní platnosti, konstruovat platnost a externí validita (Shadish, Cook, and Campbell 2001, Ch 2) . Zvládnutí těchto pojmů vám poskytne duševní kontrolní seznam pro kritiku a zlepšení tvorby a analýzu experimentu, a to vám pomůže komunikovat s jinými výzkumníky.

Statistický závěr platnosti točí kolem, zda je statistická analýza experimentu bylo provedeno správně. V souvislosti s Schultz et al. (2007) , jako otázka může soustředit na tom, zda správně vypočítány jejich p-hodnoty. Statistická analýza je nad rámec této knihy, ale mohu říci, že statistické zásady potřebné navrhovat a analyzovat experimenty se nezměnily v digitálním věku. Nicméně, odlišné prostředí dat v digitálních experimentech nemá vytvářet nové statistické příležitosti (např použitím metod strojového učení pro odhad různorodosti léčebných účinků (Imai and Ratkovic 2013) ) a nových výpočetních výzvy (například blokování v masivních experimentech (Higgins, Sävje, and Sekhon 2016) ).

Interní platnost točí kolem toho, zda byly pokusy provedeny správně. Vrátíme-li se k experimentu Schultz et al. (2007) , otázky týkající se vnitřního platnosti by mohla středu kolem randomizaci, dodávku léčby a měření výsledků. Například můžete mít obavy, že pomocní výzkumní pracovníci nečetl elektroměry spolehlivě. Ve skutečnosti, Schultz a jeho kolegové měli obavy o tomto problému a měli vzorek metrů číst dvakrát; naštěstí, výsledky byly v podstatě totožné. Obecně lze říci, Schultz a experiment kolegů, zdá se, že vysoký vnitřní platnost, ale toto není vždy případ; Komplex pole a online experimentů se často dostanete do problémů ve skutečnosti dodávají správné zacházení s těmi správnými lidmi a měření výsledků pro každého. Naštěstí v digitálním věku může pomoci snížit obavy z vnitřního platnosti, protože to usnadňuje, aby zajistily, že léčba je dodáván jako určen pro ty, kteří mají to přijímat a měřit výsledky pro všechny účastníky.

Construct platnosti center po celém utkání mezi daty a teoretických konstruktů. Jak je uvedeno v kapitole 2, konstrukty jsou abstraktní pojmy, které sociologové důvod kolem. Bohužel, tyto abstraktní pojmy nemají vždy jasné definice a měření. Vrátíme-li se Schultz et al. (2007) , tvrzení, že zdržení se společenské normy mohou nižší spotřebu elektrické energie vyžaduje, aby výzkumní navrhnout léčbu, která by manipulovat "zdržení se společenské normy" (např emotikon), a na míru "využívání elektřiny". V analogových experimentů, mnoho výzkumníků navržen tak své vlastní procedury a měřit své výsledky. Tímto způsobem je zajištěno, že, jak je to jen možné, experimenty odpovídají abstraktní konstrukty byly studovány. V digitálních experimentech, kde výzkumníci partner s podniky nebo vlády se na ošetření a používat trvalé připojení k datové systémy pro měření výsledků, shoda mezi experimentu a teoretických konstruktů může být méně těsný. Proto očekávám, že konstrukt Platnost bude inklinovat být větší obavy v oblasti digitálních experimentech než analogové experimentů.

A konečně, vnější platnosti točí kolem, zda výsledky tohoto experimentu by zobecnit na jiné situace. Vrátíme-li se Schultz et al. (2007) , jeden mohl ptát, bude to stejný nápad na poskytnutí lidé informace o jejich spotřebě energie ve vztahu k jejich vrstevníky a signál přikazující norem (např emotikon) -reduce spotřebu energie v případě, že byla provedena jiným způsobem, jiné nastavení? Pro většinu dobře navržené a dobře fungující experimenty, obavy z vnější platnosti je nejtěžší řešit. V minulosti se tyto debaty o vnější platnosti byly často jen parta lidí, kteří sedí v místnosti se snaží představit, co by se stalo, kdyby postupy byly provedeny jiným způsobem, nebo na jiném místě, nebo s různými lidmi. Naštěstí v digitálním věku umožňuje výzkumníkům přejít od těchto datových bez spekulací a vyhodnotit externí validitu empiricky.

Vzhledem k tomu, výsledky z Schultz et al. (2007) byly tak vzrušující, společnost s názvem Opower spolupracuje s inženýrských sítí ve Spojených státech nasadit léčbu v širším měřítku. Na konstrukci na bázi Schultz et al. (2007) , Opower vytvořené na míru Home Energy hlásí, že měl dva hlavní moduly, jeden ukazující domácnosti Spotřeba elektrické energie v porovnání se svými sousedy s emotikon a jeden poskytuje rady pro snížení spotřeby energie (obrázek 4.6). Poté, ve spolupráci s výzkumníky, Opower běžel randomizované kontrolované experimenty k posouzení dopadu Home Energy Reports. I přesto, že léčba v těchto experimentech byly zpravidla dodávány fyzicky obvykle přes staromódní klasickou poštu-výsledkem byla měřena pomocí digitálních přístrojů ve fyzickém světě (např wattmetry). Spíše než ručně shromažďování těchto informací s výzkumnými asistenty, kteří navštíví každý dům, pokusy Opower byli všichni provedeno ve spolupráci s energetickými společnostmi, které umožňují vědcům přístup k hodnoty spotřeby. Tak, tyto experimenty částečně digitální terénu probíhaly při masovém měřítku při nízké variabilní náklady.

Obrázek 4.6: The Home Energy Zprávy v Allcott (2011) měl modul sociálního srovnávání a Kroky modul.

V první sadě experimentů zahrnujících 600.000 domácností sloužili o 10 rozvodných společností po celých Spojených státech, Allcott (2011) zjistil, Home Energy zpráva o snížila spotřebu elektřiny o 1,7%. Jinými slovy, výsledky z mnohem větší, více geograficky odlišných studii byly kvalitativně podobné výsledky z Schultz et al. (2007) . Ale, velikost účinku byl menší: ve Schultz et al. (2007) domácností v popisném a injective normami stavu (ten s emotikony) snížila jejich spotřebu elektřiny o 5%. Přesný důvod tohoto rozdílu je neznámý, ale Allcott (2011) spekuloval, že příjem vlastnoruční emotikon jako součást studie sponzorované vysoké škole může mít větší vliv na chování, než obdrží tištěný emotikon jako součást zprávy o masovém vyrobeny z energetická společnost.

Dále v následném výzkumu, Allcott (2015) informoval o dalších 101 pokusů na dalších 8 milionů domácností. V těchto dalších 101 experimentů Home Energy zpráva i nadále přimět lidi, aby snížit jejich spotřebu elektřiny, ale účinky byly ještě menší. Přesný důvod tohoto poklesu není znám, ale Allcott (2015) spekulovalo, že účinnost této zprávy zdálo se, že v průběhu času klesá, protože se skutečně použít pro různé typy účastníků. Přesněji řečeno, inženýrské sítě ve více oblastech environmentalisty byla větší pravděpodobnost přijetí programu dřívější a jejich zákazníci byli lépe reagovat na léčbu. Jako nástroje s méně zákazníků v oblasti životního prostředí byl přijat program, její účinnost se objevil klesat. Tak, stejně jako randomizace při pokusech zajišťuje, že ošetření a kontrolní skupiny jsou si podobné, randomization ve výzkumných pracovišť zajišťuje, že odhady lze zobecnit z jedné skupiny účastníků na obecnější populace (myslím zpět do kapitoly 3 o odběru vzorků). Pokud výzkumná pracoviště nejsou náhodně vybraných, pak zobecnění-iz perfektně navržena a provedena experiment, může být problematické.

Společně tyto experimenty 111-10 v Allcott (2011) a 101 v Allcott (2015) -involved asi 8,5 milionu domácností ze všech koutů Spojených států. Jsou důsledně ukazují, že Home Energy Reports snížit průměrnou spotřebu elektrické energie, což je výsledek, který podporuje původní zjištění Schultz a kolegy z 300 domů v Kalifornii. Více než jen kopírující tyto původní výsledky, navazující experimenty také ukazují, že velikost účinku se liší podle oblasti. Tento soubor experimentů také ilustruje další dva obecné body týkající se pokusů částečně digitálních polí. Za prvé, vědci budou moci empiricky obavy z vnější platnosti, kdy náklady na provoz experimentů je nízká, a to může nastat v případě, že výsledek je již měřena vždy-o údajích systému. Z tohoto důvodu, to naznačuje, že výzkum by měl být na pozoru pro ostatní zajímavé a důležité chování, které jsou již zaznamenány, a pak navrhovat experimenty na vrcholu této existující měřicí infrastruktury. Za druhé, tato sada experimentů, nám připomíná, že pokusy digitální terénu jsou nejen online; stále očekávám, že budou všude s mnoha výsledků měřených senzory v zastavěného prostředí.

Čtyři typy platnosti statistickým závěr platnosti, vnitřní platnosti postavit platnost, externí validita-poskytují dobré kontrolní seznam pomoci vědci posoudit, zda jsou výsledky z určitého experimentu podporovat obecnější závěr. Ve srovnání s analogovým věku experimentů, v digitálním věku experimentů by měly být snadněji řešit vnější platnosti empiricky, a to by mělo být snazší zajistit vnitřní platnost. Na druhou stranu, bude problematika konstruktové platnosti pravděpodobně náročnější v digitálním věku experimentů (ačkoli to nebyl případ s experimenty Opower).