4.4.1 Валидност

Важност се однесува на тоа колку резултатите од експериментот поддршка на повеќе општ заклучок.

Ниту еден експеримент не е совршен, а истражувачите развиле широк речник за да ги опишат можните проблеми. Валидноста се однесува на степенот до кој резултатите од одреден експеримент поддржуваат некои поопшто заклучок. Социјалните научници сметаат дека е корисно да се подели валидноста во четири главни типови: валидноста на статистичките заклучоци, интерната валидност, конструктната валидност и надворешната важност (Shadish, Cook, and Campbell 2001, chap. 2) . Мастеринг на овие концепти ќе ви обезбеди ментална листа за проверка за критикување и подобрување на дизајнот и анализата на експериментот, и ќе ви помогне да комуницирате со други истражувачи.

Статистички концентрирани центри за оценка околу тоа дали статистичката анализа на експериментот е направена правилно. Во контекст на Schultz et al. (2007) , таквото прашање може да се фокусира на тоа дали тие ги пресметуваат нивните \(p\) правилно. Статистичките принципи треба да дизајнираат и анализираат експериментите кои се надвор од опсегот на оваа книга, но тие не се фундаментално изменети во дигиталната ера. Меѓутоа, она што се променило е дека околината во податоците во дигиталните експерименти создала нови можности како што се користење методи за машинско учење за да се процени хетерогеноста на ефектите од третманот (Imai and Ratkovic 2013) .

Центри за внатрешна валидност околу тоа дали експерименталните постапки се извршени правилно. Враќање во експериментот на Schultz et al. (2007) , прашањата за внатрешна важност може да се насочат околу рандомизацијата, доставувањето на третманот и мерењето на резултатите. На пример, може да бидете загрижени дека истражувачите асистенти не ги прочитале електричните бројачи сигурно. Всушност, Шулц и неговите колеги беа загрижени за овој проблем, и тие имаа примерок од метри читање двапати; За среќа, резултатите во суштина беа идентични. Општо земено, експериментот на Шулц и колегите се чини дека има голема внатрешна валидност, но ова не е секогаш случај: комплексните теренски и онлајн експерименти честопати се соочуваат со проблеми кои всушност му даваат вистински третман на вистинските луѓе и ги мерат резултатите за секого. За среќа, дигиталната ера може да помогне да се намали загриженоста за внатрешната валидност, бидејќи сега е полесно да се осигура дека третманот е доставен до оние кои би требало да го примат и да ги измери резултатите за сите учесници.

Конструирај центри за валидност околу натпреварот помеѓу податоците и теоретските конструкции. Како што беше дискутирано во поглавјето 2, конструкциите се апстрактни концепти за кои социјаллозите размислуваат. За жал, овие апстрактни концепти не секогаш имаат јасни дефиниции и мерења. Враќање во Schultz et al. (2007) , тврдењето дека наредните социјални норми можат да го намалат користењето на електрична енергија, бара од истражувачите да дизајнираат третман со кој ќе се манипулира со "наредните социјални норми" (на пример, емотив) и да се измери "употребата на електрична енергија". Во аналогните експерименти, многу истражувачи дизајнирале сопствени третмани и ги измериле своите резултати. Овој пристап осигурува дека, колку што е можно, експериментите се совпаѓаат со апстрактните конструкции што се изучуваат. Во дигиталните експерименти каде што истражувачите се здружуваат со компании или влади за да обезбедат третмани и да користат секогаш системи за податоци за мерење на резултатите, натпреварот помеѓу експериментот и теоретските конструкции може да биде помал. Така, очекувам дека конструктивната валидност ќе има поголема загриженост во дигиталните експерименти отколку во аналогните експерименти.

Конечно, надворешната валидност центри околу тоа дали резултатите од овој експеримент може да се генерализира во други ситуации. Враќање во Schultz et al. (2007) , може да се запраша дали оваа иста идеја - обезбедување на луѓе со информации за нивната употреба на енергија во однос на нивните врсници и сигнал за правила за забрана (на пр., Емотив) - ќе ја намалат употребата на енергија ако тоа било направено на поинаков начин во различен амбиент. За повеќето добро дизајнирани и добро раководени експерименти, загриженоста за надворешната важност е најтешко да се решат. Во минатото, овие дебати за надворешната важност честопати вклучуваа само една група луѓе што седеа во просторија која се обидуваше да замисли што би се случило ако процедурите биле направени на поинаков начин или на друго место или со различни учесници . За среќа, дигиталната ера им овозможува на истражувачите да ги надминат овие шпекулации без податоци и емпириски да ја проценат надворешната важност.

Бидејќи резултатите од Schultz et al. (2007) беа толку возбудливи, компанија наречена Опоер се здружи со комунални услуги во САД за да го распореди третманот пошироко. Врз основа на дизајнот на Schultz et al. (2007) , Opower креираше индивидуални Извештаи за енергетска ефикасност со два главни модули: еден покажува потрошувачка на електрична енергија во домаќинството во однос на соседите со емотив и еден кој дава совети за намалување на потрошувачката на енергија (слика 4.6). Потоа, во партнерство со истражувачите, Opower извршуваше рандомизирани контролирани експерименти за да го процени влијанието на овие извештаи за домашна енергија. Иако третманите во овие експерименти обично биле испорачани физички - обично преку старомоден пијалак - исходот бил мерен со помош на дигитални уреди во физичкиот свет (на пр., Мерачи на моќност). Понатаму, наместо рачно собирање на оваа информација со истражувачки асистенти во посета на секоја куќа, сите експерименти на Опеуер беа направени во партнерство со енергетските компании што им овозможија на истражувачите да пристапат до читањата на моќ. Така, овие делумно дигитални теренски експерименти беа извршени во масовна скала при ниски варијабилни трошоци.

Слика 4.6: Извештаите за домашна енергија имаа Модул за социјално споредување и Модул за акциони чекори. Репродуцирано со дозвола од Allcott (2011), слики 1 и 2.

Слика 4.6: Извештаите за домашна енергија имаа Модул за социјално споредување и Модул за акциони чекори. Репродуцирано со дозвола од Allcott (2011) , слики 1 и 2.

Во првиот сет на експерименти со 600.000 домаќинства од 10 различни локации, Allcott (2011) откри дека извештајот за домашна енергија ја намали потрошувачката на електрична енергија. Со други зборови, резултатите од многу поголемата географски разновидна студија биле квалитативно слични со резултатите на Schultz et al. (2007) . Понатаму, во последователните истражувања кои вклучуваат осум милиони дополнителни домаќинства од 101 различни локации, Allcott (2015) повторно откри дека извештајот за енергетска ефикасност постојано ја намалува потрошувачката на електрична енергија. Овој многу поголем сет на експерименти, исто така, покажа интересен нов модел кој не би бил видлив во ниту еден единствен експеримент: големината на ефектот се намалил во подоцнежните експерименти (слика 4.7). Allcott (2015) шпекулираше дека овој пад се случил бидејќи со текот на времето третманот се применувал на различни типови на учесници. Поконкретно, комуналните услуги со клиенти кои се повеќе фокусирани кон животната средина, поверојатно ја прифатија програмата порано, а нивните клиенти беа повеќе одговора на третманот. Бидејќи претпријатијата со помалку еколошки фокусирани корисници ја усвоија програмата, нејзината ефективност се појави на опаѓање. Така, исто како што рандомизацијата во експериментите осигурува дека слични и контролни групи се слични, рандомизацијата на истражувачките места обезбедува дека проценките може да се генерализираат од една група на учесници до поопшти популации (се сеќавате на поглавјето 3 за земање примероци). Ако истражувачките места не се земаат по случаен избор, тогаш генерализација, дури и од совршено дизајниран и спроведен експеримент, може да биде проблематична.

Слика 4.7: Резултати од 111 експерименти кои го тестираат ефектот од Извештајот за домашна енергија за потрошувачката на електрична енергија. На места каде програмата беше усвоена подоцна, има тенденција да има помали ефекти. Allcott (2015) тврди дека главен извор на овој модел е дека сајтовите со клиенти кои се фокусирани на еколошки аспекти се со поголема веројатност да ја прифатат програмата порано. Адаптиран од Allcott (2015), слика 3.

Слика 4.7: Резултати од 111 експерименти кои го тестираат ефектот од Извештајот за домашна енергија за потрошувачката на електрична енергија. На места каде програмата беше усвоена подоцна, има тенденција да има помали ефекти. Allcott (2015) тврди дека главен извор на овој модел е дека сајтовите со клиенти кои се фокусирани на еколошки Allcott (2015) се со поголема веројатност да ја прифатат програмата порано. Адаптиран од Allcott (2015) , слика 3.

Заедно, овие 111 експерименти-10 во Allcott (2011) и 101 во Allcott (2015) вклучија околу 8,5 милиони домаќинства од цела Соединетите Американски Држави. Тие постојано покажуваат дека домашните извештаи за енергија ја намалуваат просечната потрошувачка на електрична енергија, што резултира со поддршка на оригиналните наоди на Шулц и неговите колеги од 300 домови во Калифорнија. Надвор од само повторување на овие оригинални резултати, следењето експерименти, исто така, покажуваат дека големината на ефектот варира од локацијата. Овој сет на експерименти, исто така, илустрира две повеќе општи точки за делумно дигитални експерименти. Прво, истражувачите ќе можат емпириски да се осврнат на загриженоста за надворешната важност кога трошоците за водење на експериментите се ниски, а тоа може да се случи ако исходот веќе се мери со постојан систем за податоци. Затоа, сугерира дека истражувачите треба да бидат во потрага по други интересни и важни однесувања кои веќе се снимаат, а потоа дизајнираат експерименти врз оваа постоечка мерна инфраструктура. Второ, овој сет на експерименти не потсетува дека експериментите за дигитално поле не се само онлајн; сè повеќе, очекувам тие да бидат насекаде со многу резултати измерени од сензори во изградената средина.

Четирите варијанти на валидноста, статистичката вредност на склучувањето, интерната валидност, изградбата на валидноста и надворешната важност - обезбедуваат ментален список за да им помогнат на истражувачите да проценат дали резултатите од одреден експеримент поддржуваат поопшт заклучок. Во споредба со експериментите со аналогни години, во експериментите со дигитална ера, треба да е полесно да се адресира надворешната валидност емпириски, а исто така треба да биде полесно да се обезбеди внатрешна валидност. Од друга страна, прашањата за конструирање валидност веројатно ќе бидат предизвици во експериментите со дигитална ера, особено експериментите со дигитално поле, кои вклучуваат партнерства со компаниите.