4.4.1 Kesahan

terjemahan ini dihasilkan oleh komputer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.4.1 Kesahan

Kesahan merujuk kepada berapa banyak keputusan eksperimen yang menyokong kesimpulan yang lebih umum.

Eksperimen tidak sempurna, dan penyelidik telah membangunkan perbendaharaan kata yang luas untuk menggambarkan masalah yang mungkin. Kesahan merujuk kepada sejauh mana keputusan sesuatu uji kaji menyokong beberapa kesimpulan yang lebih umum. Ahli sains sosial mendapati ia berguna untuk berpecah kesahihan kepada empat jenis utama: statistik kesimpulan kesahihan, kesahan dalaman, membina kesahihan, dan kesahan luaran (Shadish, Cook, and Campbell 2001, Ch 2) . Menguasai konsep-konsep ini akan memberikan anda senarai semak mental untuk mengkritik dan memperbaiki reka bentuk dan analisis percubaan, dan ia akan membantu anda berkomunikasi dengan penyelidik lain.

Kesahihan kesimpulan statistik Pusat sekitar sama ada analisis statistik eksperimen telah dilakukan dengan betul. Dalam konteks Schultz et al. (2007) soalan itu mungkin tertumpu kepada sama ada mereka dikira p-nilai mereka dengan betul. Analisis statistik adalah di luar skop buku ini, tetapi saya boleh mengatakan bahawa prinsip statistik yang diperlukan untuk mereka bentuk dan menganalisis ujikaji tidak berubah dalam era digital. Walau bagaimanapun, persekitaran data yang berbeza dalam eksperimen digital tidak mewujudkan peluang statistik baru (contohnya, dengan menggunakan kaedah pembelajaran mesin untuk menganggarkan kepelbagaian kesan rawatan (Imai and Ratkovic 2013) ) dan cabaran pengiraan baru (contohnya, menyekat dalam eksperimen besar-besaran (Higgins, Sävje, and Sekhon 2016) ).

Kesahan dalaman berpusat di sekitar sama ada prosedur eksperimen telah dilakukan dengan betul. Berbalik kepada eksperimen Schultz et al. (2007) , soalan mengenai kesahihan dalaman boleh tertumpu di sekitar rawak, penghantaran rawatan, dan pengukuran hasil. Sebagai contoh, anda mungkin bimbang bahawa pembantu penyelidik tidak membaca meter elektrik dengan pasti. Malah, Schultz dan rakan-rakannya bimbang tentang masalah ini dan mereka mempunyai sampel meter membaca dua kali; nasib baik, keputusan pada dasarnya sama. Secara umum, Schultz dan eksperimen rakan-rakan 'muncul untuk mempunyai kesahan dalaman yang tinggi, tetapi ini tidak selalunya kes itu; bidang kompleks dan eksperimen dalam talian sering menghadapi masalah sebenarnya menyampaikan rawatan yang betul kepada orang yang tepat dan mengukur hasil untuk semua orang. Mujurlah, era digital boleh membantu mengurangkan kebimbangan mengenai kesahan dalaman kerana ia membuatkan ia lebih mudah untuk memastikan bahawa rawatan itu diserahkan sebagai direka untuk orang-orang yang sepatutnya menerima dan mengukur outcome untuk semua peserta.

Membina pusat kesahihan sekitar perlawanan antara data dan membina teori. Seperti yang dibincangkan dalam Bab 2, membina adalah konsep abstrak yang ahli sains sosial sebab tentang. Malangnya, konsep-konsep abstrak tidak sentiasa mempunyai definisi yang jelas dan pengukuran. Berbalik kepada Schultz et al. (2007) , dakwaan bahawa injunksi norma-norma sosial boleh menurunkan penggunaan elektrik memerlukan penyelidik untuk mereka bentuk rawatan yang akan memanipulasi "norma sosial injunksi" (contohnya, smiley) dan untuk mengukur "penggunaan elektrik". Dalam eksperimen analog, ramai penyelidik direka rawatan mereka sendiri dan diukur hasil mereka sendiri. Pendekatan ini memastikan bahawa, sebanyak mungkin, eksperimen sepadan dengan konstruk abstrak yang dikaji. Dalam eksperimen digital di mana rakan kongsi penyelidik dengan syarikat-syarikat atau kerajaan untuk menyampaikan rawatan dan menggunakan sentiasa ke sistem data bagi mengukur outcome, perlawanan di antara eksperimen dan membina teori mungkin kurang ketat. Oleh itu, saya menjangkakan bahawa konstruk kesahan akan cenderung untuk menjadi perhatian yang lebih besar dalam eksperimen digital daripada eksperimen analog.

Akhirnya, kesahan luaran Pusat sekitar sama ada keputusan eksperimen ini akan umum untuk situasi lain. Berbalik kepada Schultz et al. (2007) , seseorang itu boleh bertanya, adakah ini maklumat idea-menyediakan orang yang sama mengenai penggunaan tenaga mereka dalam hubungan dengan rakan-rakan mereka dan isyarat norma injunksi (contohnya, emotikon) -Mengurangkan penggunaan tenaga jika ia dilakukan dengan cara yang berbeza dalam suasana yang berbeza? Bagi kebanyakan yang direka dengan baik dan eksperimen yang dijalankan, kebimbangan mengenai kesahihan luaran adalah yang paling sukar untuk menangani. Pada masa lalu, debat ini mengenai kesahihan luaran adalah kerap hanya sekumpulan orang yang duduk di dalam bilik cuba untuk membayangkan apa yang akan berlaku jika prosedur telah dilakukan dengan cara yang berbeza, atau di tempat yang berbeza, atau dengan orang yang berbeza. Mujurlah, era digital membolehkan penyelidik untuk bergerak di luar ini spekulasi data bebas dan menilai kesahihan luaran secara empirikal.

Kerana keputusan dari Schultz et al. (2007) begitu menarik, sebuah syarikat yang dinamakan Opower bekerjasama dengan utiliti di Amerika Syarikat untuk menggunakan rawatan yang lebih meluas. Berdasarkan reka bentuk Schultz et al. (2007) , Opower dicipta disesuaikan Home Laporan Tenaga yang mempunyai dua modul utama, satu menunjukkan penggunaan elektrik isi rumah ini berbanding dengan negara-negara jiran dengan emotikon dan satu yang menyediakan tips untuk mengurangkan penggunaan tenaga (Rajah 4.6). Kemudian, dengan kerjasama penyelidik, Opower berlari rawak eksperimen terkawal untuk menilai kesan Home Laporan Tenaga. Walaupun rawatan dalam eksperimen ini adalah biasanya dihantar secara fizikal biasanya melalui lama siput fesyen mel hasil diukur menggunakan alat-alat digital dalam dunia fizikal (contohnya, meter kuasa). Daripada mengumpul maklumat ini dengan pembantu penyelidik melawat setiap rumah secara manual, eksperimen Opower semuanya dilakukan dengan kerjasama syarikat-syarikat kuasa membolehkan penyelidik untuk mengakses bacaan kuasa. Oleh itu, ini uji kaji lapangan sebahagiannya digital telah dijalankan pada skala yang besar pada kos pembolehubah rendah.

Rajah 4.6: The Home Laporan Tenaga dalam Allcott (2011) mempunyai Perbandingan Modul sosial dan Modul Action Steps.

Dalam set pertama eksperimen yang melibatkan 600,000 isi rumah disampaikan oleh 10 syarikat utiliti di seluruh Amerika Syarikat, Allcott (2011) mendapati Laporan Tenaga Utama menurunkan penggunaan elektrik sebanyak 1.7%. Dalam erti kata lain, keputusan dari lebih besar, kajian yang lebih geografi yang pelbagai adalah kualitatif sama dengan keputusan dari Schultz et al. (2007) . Tetapi, saiz kesan yang lebih kecil: dalam Schultz et al. (2007) isi rumah dalam norma-norma keadaan deskriptif dan injective (satu dengan smiley) mengurangkan penggunaan elektrik mereka sebanyak 5%. Sebab yang tepat bagi perbezaan ini tidak diketahui, tetapi Allcott (2011) membuat spekulasi bahawa menerima smiley tulisan tangan sebagai sebahagian daripada kajian yang ditaja oleh universiti yang mungkin mempunyai kesan yang lebih besar ke atas tingkah laku daripada menerima smiley bercetak sebagai sebahagian daripada besar-besaran laporan daripada syarikat kuasa.

Selanjutnya, dalam penyelidikan berikutnya, Allcott (2015) melaporkan pada tambahan 101 eksperimen yang melibatkan tambahan 8 juta isi rumah. Dalam 101 ujikaji seterusnya Laporan Tenaga Utama terus menyebabkan orang untuk mengurangkan penggunaan elektrik mereka, tetapi kesan adalah lebih kecil. Sebab tepat penurunan ini tidak diketahui, tetapi Allcott (2015) membuat spekulasi bahawa keberkesanan laporan itu kelihatan merosot dari masa ke masa kerana ia sebenarnya sedang digunakan untuk pelbagai jenis peserta. Lebih khusus lagi, utiliti di lebih banyak kawasan alam sekitar lebih cenderung menerima pakai program yang terdahulu dan pelanggan mereka lebih responsif kepada rawatan. Utiliti dengan pelanggan kurang alam sekitar pakai program ini, keberkesanannya muncul merosot. Oleh itu, sama seperti rawak dalam eksperimen memastikan kumpulan rawatan dan kawalan adalah sama, rawak di tapak penyelidikan memastikan bahawa anggaran boleh umum dari satu kumpulan peserta untuk penduduk yang lebih umum (berfikir kembali Bab 3 mengenai sampling). Jika tapak penyelidikan tidak disampel secara rawak, maka generalisasi-walaupun dari sempurna direka dan dijalankan eksperimen boleh menimbulkan masalah.

Bersama-sama, 111 eksperimen-10 dalam Allcott (2011) dan 101 dalam Allcott (2015) -involved kira-kira 8.5 juta isi rumah di seluruh Amerika Syarikat. Mereka secara konsisten menunjukkan bahawa Laporan Home Energy mengurangkan penggunaan elektrik purata, hasil yang menyokong penemuan asal Schultz dan rakan-rakan dari 300 rumah di California. Beyond hanya meniru hasil yang asal, eksperimen susulan juga menunjukkan bahawa saiz kesan yang berbeza-beza mengikut lokasi. Ini set eksperimen juga menunjukkan dua mata umum mengenai uji kaji lapangan sebahagiannya digital. Pertama, penyelidik akan dapat secara empirik address kebimbangan mengenai kesahihan luaran apabila kos menjalankan eksperimen adalah rendah, dan ini boleh berlaku jika keputusan sudah diukur oleh sistem sentiasa ke data. Oleh itu, ia menunjukkan bahawa penyelidikan hendaklah di atas rupa-tingkah-laku menarik dan penting lain yang telah direkodkan, dan kemudian mereka bentuk eksperimen di atas infrastruktur pengukur ini yang sedia ada. Kedua, set eksperimen mengingatkan kita bahawa uji kaji lapangan digital tidak hanya dalam talian; semakin saya menjangkakan bahawa mereka akan mana-mana dengan banyak hasil yang diukur oleh sensor dalam alam bina.

Empat jenis sah-sah statistik Kesimpulannya, kesahan dalaman, membina kesahihan, kesahan-menyediakan luaran senarai semak mental untuk membantu penyelidik menilai sama ada keputusan dari ujikaji khusus menyokong kesimpulan yang lebih umum. Berbanding dengan eksperimen umur analog, dalam eksperimen umur digital ia perlu menjadi lebih mudah untuk menangani kesahihan luaran secara empirikal dan ia perlu menjadi lebih mudah untuk memastikan kesahan dalaman. Sebaliknya, isu-isu kesahan konstruk mungkin akan menjadi lebih mencabar dalam eksperimen umur digital (walaupun itu tidak berlaku dengan eksperimen Opower).