4.4.1 Валидност

Важност се однесува на тоа колку резултатите од експериментот поддршка на повеќе општ заклучок.

Не експеримент е совршен, и истражувачи разви широка речник за да се опише можни проблеми. Важност се однесува на степенот до кој резултатите на одредена експеримент поддршка на некои поопшти заклучок. Социјални научници откриле дека е корисно да се подели на важност на четири главни вида: статистичкото заклучување важност, внатрешна валидност, изградба на важност, како и надворешно важност (Shadish, Cook, and Campbell 2001, Ch 2) . Мастеринг овие концепти ќе ви овозможи ментална листа за проверка за critiquing и подобрување на дизајнот и анализа на експеримент, и тоа ќе ви помогне да комуницира со други истражувачи.

Статистичка валидност заклучок центри околу тоа дали на статистичка анализа на експериментот се направи правилно. Во контекст на Schultz et al. (2007) , како прашање може да се фокусира на тоа дали тие се пресметуваат нивните P-вредности правилно. Статистичка анализа е надвор од опсегот на оваа книга, но можам да кажам дека статистички принципи потребни за да дизајн и анализа на експерименти не се променети во дигиталната ера. Меѓутоа, различни животната средина на податоците во дигитална експерименти се создаде нови статистички можности (на пример, со користење методи машина за учење за да се процени хетерогеноста на третман ефекти (Imai and Ratkovic 2013) ) и новите пресметковни предизвици (на пример, блокирање во масовни експерименти (Higgins, Sävje, and Sekhon 2016) ).

Внатрешна валидност центри околу тоа дали експериментални процедури се врши правилно. Враќање на експеримент на Schultz et al. (2007) , прашањата за внатрешна валидност може да центар околу рандомизација, испорака на лекување, и мерење на резултатите. На пример, може да биде загрижен дека истражувачки асистенти не си го прочитал на електрични метри сигурно. Всушност, Шулц и неговите колеги беа загрижени за овој проблем и тие имаа примерок од метри чита двапати; За среќа, резултатите беа во суштина се идентични. Во принцип, Шулц и експеримент колеги "се чини дека имаат висока внатрешна валидност, но тоа не е секогаш случај; комплексна област и онлајн експерименти често се кандидира во проблеми, всушност, доделување на право третман на вистинските луѓе и мерење на резултатите за секого. За среќа, на дигиталната ера може да помогне да се намали загриженоста за внатрешна валидност, бидејќи тоа го прави полесно да се осигура дека третманот е дадено како наменета за оние кои би требало да ја прими и да се измери резултати за сите учесници.

Конструирај центри околу валидноста на натпреварот помеѓу податоците и теоретски конструкции. Како што беше дискутирано во Поглавје 2, конструкции се апстрактни концепти кои социјалните научници причина за. За жал, овие апстрактни концепти не секогаш имаат јасни дефиниции и мерења. Враќајќи се Schultz et al. (2007) , тврдењето дека привремени мерки општествените норми може да ја намали употребата на електрична енергија бара истражувачите да се дизајнира еден третман кој ќе манипулира "привремени мерки социјалните норми" (на пример, смајли) и да се измери "употреба на електрична енергија". Во аналогни експерименти, многу истражувачи дизајниран своите третмани и мери своите резултати. Овој пристап обезбедува дека, колку што е можно, експериментите одговара на апстрактни конструкции се испитуваат. Во дигитални експерименти каде истражувачите партнери со компании или влади ќе ги исполнат третмани и употреба секогаш на податоци системи за мерење на резултатите, на натпреварот помеѓу експериментот и теоретски конструкции може да биде помалку тесни. Така, јас очекувам дека конструкција важност ќе имаат тенденција да биде поголема загриженост во дигитални експерименти од аналогни експерименти.

Конечно, надворешна валидност центри околу тоа дали резултатите од овој експеримент ќе се генерализира во други ситуации. Враќајќи се Schultz et al. (2007) , може да се прашуваат, ќе истата оваа идеја, обезбедување на луѓето информации за нивната употреба на енергија во однос на нивните врсници и сигнал за привремени мерки норми (на пример, смајли) -Намалување на употребата на енергија, ако тоа е направено во еден поинаков начин поинаков амбиент? За повеќето добро дизајнирана и добро водена експерименти, се однесува за надворешна валидност се најтешко да се обрати. Во минатото, овие дебати за надворешни важност често беа само еден куп на луѓе што седат во соба обидувајќи се да се замисли што би се случило ако постапката е направено во еден поинаков начин, или на друго место, или со различни луѓе. За среќа, на дигиталната ера овозможува на истражувачите да се движат подалеку од овие податоци без шпекулации и да се оцени важноста надворешни емпириски.

Бидејќи резултатите од Schultz et al. (2007) беа толку возбудлив, компанија со име Opower соработува со претпријатија во САД за распоредување на третман пошироко. Врз основа на дизајн на Schultz et al. (2007) , Opower создадени прилагодени за енергетика извештаи дом, кој имаше две главни модули, по еден покажувајќи домаќинство користење на електричната енергија во однос на своите соседи со икони и еден обезбедување на совети за намалување на користењето на енергија (Слика 4.6). Потоа, во партнерство со истражувачи, Opower трчаше рандомизирани контролирани експерименти за да се процени влијанието на енергија Извештаи на Домот. Иако третмани во овие експерименти се обично претставено физички-обично преку старомодни полжав пошта резултатот се мери со користење на дигитални уреди во физичкиот свет (на пример, мерачи на моќност). Наместо рачно собирањето на овие податоци со истражувачки асистенти во посета на секоја куќа, експериментите Opower беа Сето тоа е направено во соработка со енергетски компании се овозможува на истражувачите да пристапите на читања моќ. Така, овие делумно дигитални експерименти област се кандидира на огромни количини на ниски варијабилни трошоци.

Слика 4.6: Енергија Извештаи дом во Allcott (2011) имаше споредба Модул социјални и акција чекори модул.

Слика 4.6: Енергија Извештаи дом во Allcott (2011) имаше споредба Модул социјални и акција чекори модул.

Во првиот сет на експерименти со 600.000 домаќинства служи за 10 комунални претпријатија низ САД, Allcott (2011) се најде на енергија Извештај Почетен намали потрошувачката на електрична енергија од 1,7%. Со други зборови, резултатите од многу поголема, повеќе географски различни студиски квалитет биле слични на резултатите од Schultz et al. (2007) . Но, големината на ефектот е помал: во Schultz et al. (2007) од домаќинствата во состојба на описната и injective норми (оној со смајли) ја намали нивната употреба на електрична енергија од 5%. Прецизна причина за оваа разлика е непозната, но Allcott (2011) шпекулира дека добивањето на ракописно смајли како дел од една студија спонзорирана од страна на Универзитетот може да имаат поголем ефект врз однесувањето од добивањето на печатени смајли како дел од масовно произведени извештај од претпријатие за електрична енергија.

Понатаму, во подоцнежните истражувања, Allcott (2015) објави на дополнителни 101 експерименти со дополнителни 8 милиони домаќинства. Во овие следните 101 експерименти енергија Извештај Почетен продолжи да предизвика луѓето да се намали потрошувачката на електрична енергија, но ефектите беа дури и помал. Прецизниот Причината за овој пад не е позната, но Allcott (2015) шпекулира дека ефикасноста на извештајот се чини дека се намалува со текот на времето, бидејќи тоа беше, всушност, се применува на различни видови на учесници. Поконкретно, комунални услуги во повеќе области на животната средина почесто донесува програмата порано и нивните клиенти се повеќе одговора на третман. Како комунални претпријатија со помалку клиенти на животната средина, усвои програма, нејзината ефикасност се појави да се намалува. На тој начин, исто како рандомизација во експерименти гарантира дека третманот група и контрола се слични, рандомизација во истражувањето сајтови обезбедува дека проценките може да се генерализира од една група на учесници на повеќе општата популација (се сетам на Поглавје 3 за земање мостри). Ако истражување сајтови не се земаат мостри по случаен избор, а потоа генерализација, дури и од совршено дизајнирана и спроведена експеримент-може да биде проблематична.

Заедно, овие 111 експерименти-10 во Allcott (2011) и 101 во Allcott (2015) -involved околу 8,5 милиони домаќинства од целиот САД. Тие постојано покажуваат дека Почетна енергетика извештаи за намалување на просечната потрошувачка на електрична енергија, резултат кој поддржува оригиналниот наодите од Шулц и неговите колеги од 300 домови во Калифорнија. Надвор само реплицира овие првични резултати, следење експерименти покажуваат дека големината на ефектот зависи од земјата. Овој сет на експерименти, исто така, покажува уште две важни работи за делумно дигитални поле експерименти. Прво, научниците ќе можат да емпириски адреса загриженоста за надворешни важност кога цената на водење на експерименти е на ниско ниво, и ова може да се случи ако исходот веќе се мери со секогаш на податоци систем. Затоа, тоа укажува дека истражувањето треба да биде на изглед-out за други интересни и важни однесувања кои се веќе снимени, а потоа дизајн експерименти на врвот на постојните мерни инфраструктура. Второ, овој сет на експерименти не потсетува дека дигитални експерименти поле не се само на интернет; повеќе Очекувам дека ќе биде секогаш со многу резултати се мери со сензори во изградена средина.

На четири видови на важност на статистички заклучок важност, внатрешна валидност, изградба на важење, надворешна валидност-обезбедуваме ментална листа за да помогне на истражувачите да се оцени дали резултатите од одреден експеримент поддршка на повеќе општ заклучок. Во споредба со аналогни возраст експерименти, во дигитални експерименти возраст треба да биде полесно да се справат со надворешен важност емпириски и тоа треба да биде полесно да се обезбеди внатрешна валидност. Од друга страна, прашањата за изградба на важност, најверојатно, ќе биде поголем предизвик во дигитални експерименти возраст (иако тоа не беше случај со експериментите Opower).