4.4.1 Валидност

Валидност отнася до колко резултатите от експеримент, поддържат по-общ извод.

Не експеримент е съвършен, и изследователи са разработили богат речник, за да опишат възможните проблеми. Валидност се отнася до степента, в която резултатите от даден експеримент подкрепят някои по-общ извод. Социалните учени са установили, че е полезно да се раздели валидност на четири основни типа: статистическо заключение валидност, вътрешна валидност, изграждане на валидност, и външна валидност (Shadish, Cook, and Campbell 2001, Ch 2) . Овладяването на тези понятия ще ви предостави психично контролен списък за критикуване и подобряване на дизайна и анализа на един експеримент, и тя ще ви помогне да общуват с други изследователи.

Статистическа валидност заключение центрове около това дали статистическия анализ на експеримента е било направено правилно. В контекста на Schultz et al. (2007) , като въпрос може да се съсредоточи върху това дали те изчисляват техните р-стойности правилно. Статистическият анализ е извън обхвата на тази книга, но мога да кажа, че статистическите принципи, необходими за проектиране и анализ на експерименти, които не са се променили в дигиталната епоха. Въпреки това, на различна среда данни в цифрови експерименти не създава нови статистически възможности (например, като се използват методи за машинно обучение, за да се оцени хетерогенност на лечебни ефекти (Imai and Ratkovic 2013) ) и нови изчислителни предизвикателства (например, блокиране в масивни експерименти (Higgins, Sävje, and Sekhon 2016) ).

Вътрешен валидност центрове около това дали експериментални процедури са извършени правилно. Връщайки се към експеримента на Schultz et al. (2007) , въпроси за вътрешната валидност може да се съсредоточават около рандомизацията, доставка на лечението, както и измерване на резултатите. Например, може да имате притеснения, че научни сътрудници не четат електромерите надеждно. В действителност, Шулц и колеги са притеснени от този проблем и те са имали една проба на метри четат два пъти; За щастие, резултатите са по същество идентични. Като цяло, Шулц и експеримент колеги изглежда, че има висока вътрешна валидност, но това не винаги е така; сложна област и онлайн експерименти често тичам в проблеми всъщност доставят правилното лечение на правилните хора и измерване на резултатите за всеки. За щастие, в цифровата ера може да помогне за намаляване на опасенията за вътрешната валидност, защото тя е по-лесно да се гарантира, че лечението не е представено като предназначена за тези, които се очаква да го получи и да се измери резултати за всички участници.

Построява центрове валидност около мача между данните и теоретични конструкции. Както беше обсъдено в глава 2, конструкции са абстрактни понятия, че социалните учени причина за. За съжаление, тези абстрактни понятия не винаги имат ясни определения и измервания. Връщайки се към Schultz et al. (2007) , твърдението, че съдебно социални норми могат да намалят потреблението на електроенергия изисква изследователите да се изработи лечение, което ще се манипулира "по съдебен социални норми" (например, емотикон) и да се измери "използване на електроенергия". В аналогови експерименти, много изследователи, предназначени собствените си процедури и измерват собствените си резултати. Този подход гарантира, че, колкото е възможно, експериментите съответстват на абстрактни конструкти се проучва. В дигитални експерименти, където изследователи партньор с фирми или правителства да предоставят лечение и използват винаги-на системи за данни за измерване на резултатите, в мача между експеримента и теоретичните конструкти могат да бъдат по-малко стегнато. По този начин, аз очаквам, че конструкт валидност ще са склонни да бъдат по-голяма загриженост в дигитални експерименти, отколкото аналоговите експерименти.

Накрая, външна валидност центрове около това дали резултатите от този експеримент ще обобщи за други ситуации. Връщайки се към Schultz et al. (2007) , може да попитате, ще същата тази идея по предоставяне на хората информация за тяхното използване на енергията в отношенията с техните връстници и сигнал на по съдебен норми (например, емотикон) -reduce на потреблението на енергия, ако това е направено по различен начин в различна настройка? За най-добре проектирана и добре управлявана експерименти, опасения за външна валидност са най-трудни за преодоляване. В миналото тези дебати за външна валидност често са просто един куп хора седят в една стая се опитва да си представи какво би се случило, ако процедурите са били извършени по различен начин, или на друго място, или с различни хора. За щастие, в цифровата ера позволява на изследователите да се премине отвъд тези данни без спекулации и оцени външната валидност емпирично.

Тъй като резултатите от Schultz et al. (2007) са били толкова вълнуващо, компания на име Opower партнира с комунални услуги в САЩ за разполагане на лечението по-широко. Въз основа на дизайна на Schultz et al. (2007) , Opower е създаден по поръчка на енергия Доклади Начало, че са имали два основни модула, един показване на едно домакинство използване на електроенергия в сравнение с нейните съседи с емотикон и една предоставяща съвети за намаляване на потреблението на енергия (Фигура 4.6). След това, в партньорство с изследователи, Opower избяга рандомизирани контролирани експерименти, за да се оцени въздействието на енергийните доклади на домакините. Въпреки че обработките в тези експерименти са обикновено доставят физически-обикновено чрез старомодна охлюв поща-резултатът се измерва с помощта на цифрови устройства във физическия свят (например, електрически метра). Вместо ръчно събиране на тази информация с научни сътрудници, които посещават всяка къща, експериментите Opower всички бяха извършени в партньорство с енергийните компании, които позволяват на изследователите да получите достъп до показанията на мощност. По този начин, тези частично дигитални експерименти поле се провеждат в голям мащаб при ниски променливи разходи.

Фигура 4.6: Енергийните доклади на домакините в Allcott (2011) са имали Сравнение Модул социален и Екшън Стъпки модул.

Фигура 4.6: Енергийните доклади на домакините в Allcott (2011) са имали Сравнение Модул социален и Екшън Стъпки модул.

В първата група от експерименти с 600,000 домакинства, обслужвани от 10 дружества за комунални услуги по целия Съединените щати, Allcott (2011) Намерени енергетиката доклад Начало намалена консумация на електроенергия с 1.7%. С други думи, резултатите от много по-голям, по-различни географски изследването са качествено подобни на резултатите от Schultz et al. (2007) . Но, размерът на действие е по-малък: в Schultz et al. (2007) на домакинствата в състоянието на описателен и инжекционна норми (този с емотикона) намалили употребата на електричество от 5%. Точната причина за тази разлика е неизвестен, но Allcott (2011) спекулират, че получаването на саморъчен емотикон като част от проучване, спонсорирано от един университет може да има по-голям ефект върху поведението, отколкото получаването на печатни емотикон като част от масово производство доклад от енергийна компания.

Освен това, в бъдещите изследвания, Allcott (2015) съобщава за още 101 експерименти, включващи допълнителни 8 милиона домакинства. В тези следващите 101 експерименти енергетиката доклад Начало продължи да предизвика хората да намалят потреблението си на електроенергия, но ефектите са още по-малки. Точната причина за този спад не е известна, но Allcott (2015) спекулират, че ефективността на доклада се появи да се намалява с течение на времето, тъй като е действително да се прилага към различни видове участници. По-конкретно, комунални услуги в повече природозащитни зони са по-склонни да приемат програмата по-рано и техните клиенти са по-чувствителни към лечението. Както комунални услуги с по-малко клиенти на околната среда, приети на програмата, нейната ефективност се появи да намалява. По този начин, точно както рандомизацията в експерименти гарантира, че групата на лечение и контрол са подобни, рандомизацията в изследователски сайтове гарантира, че оценките могат да бъдат обобщени от една група участници към по-общото население (мисля, обратно към Глава 3 за вземане на проби). Ако изследователски обекти, които не са включени в извадката на случаен принцип, а след това обобщение-дори и от перфектно проектирани и провежда експеримент-може да бъде проблематично.

Взети заедно, тези 111 експерименти-10 в Allcott (2011) и 101 в Allcott (2015) -involved около 8,5 милиона домакинства от всички краища на Съединените щати. Те последователно се покаже, че Home Energy Доклади намали средната консумация на електроенергия, в резултат, който поддържа първоначалните констатации на Шулц и колегите от 300 къщи в Калифорния. Отвъд просто имитиране на тези оригинални резултати, на последващи експерименти показват също така, че размерът на ефекта варира от място. Този набор от експерименти също илюстрира още две общи точки за частично цифрови полеви експерименти. Първо, учените ще могат емпирично да отговорят на загрижеността за външна валидност, когато разходите за провеждане на експерименти е ниско, а това може да се случи, ако резултатът вече се измерва с винаги-на данни система. Ето защо, тя предполага, че изследванията трябва да бъде на наблюдателен пост за други интересни и важни поведения, които вече са били записани, и след това се проектира експерименти на върха на тази съществуваща измервателна инфраструктура. Второ, този набор от експерименти ни напомня, че дигитални експерименти полеви не са само онлайн; все аз очаквам, че те ще бъдат навсякъде с много резултати, измерени от датчиците в архитектурната среда.

Четирите вида на валидност-статистическия извод валидност, вътрешна валидност, конструират валидност, външна валидност-осигури психическо списък, за да помогне на учените да преценят дали резултатите от даден експеримент подкрепят по-общ извод. В сравнение с аналогови Възраст експерименти, в цифрови експерименти възраст трябва да бъде по-лесно да се справи външен валидност емпирично и трябва да бъде по-лесно да се осигури вътрешно валидност. От друга страна, проблемите на конструкт валидност вероятно ще бъдат по-трудни в дигитални експерименти възрастови (въпреки, че не е бил случаят с експериментите Opower).