4.4.1 اعتبار

این ترجمه توسط یک کامپیوتر ساخته شده است. ×

4.4.1 اعتبار

اعتبار به چه مقدار از نتایج یک آزمایش حمایت از یک نتیجه گیری کلی تر اشاره دارد.

هیچ آزمایش کامل نیست و محققان واژگان زیادی را برای توصیف مشکلات احتمالی توسعه داده اند. اعتبار به میزانی است که نتایج حاصل از یک آزمایش خاص، برخی از نتیجه گیری عمومی را پشتیبانی می کند. دانشمندان علوم اجتماعی معتقدند که اعتبار را به چهار نوع اصلی تقسیم می کند: اعتبار محاسبات آماری، اعتبار درونی، اعتبار ساختاری و اعتبار خارجی (Shadish, Cook, and Campbell 2001, chap. 2) . تسلط بر این مفاهیم، یک چک لیست ذهنی برای انتقاد و بهبود طراحی و تجزیه و تحلیل یک آزمایش فراهم می کند و به شما در برقراری ارتباط با محققان دیگر کمک خواهد کرد.

محاسبه صحت نتیجه گیری در مورد این که آیا تجزیه و تحلیل آماری آزمایش به درستی انجام شد یا خیر. در زمینه Schultz et al. (2007) ، چنین سؤالی ممکن است بر روی این که آیا آنها \(p\) -values خود را به درستی محاسبه شده است. اصول آماری نیاز به طراحی و تجزیه و تحلیل آزمایشات فراتر از محدوده این کتاب است، اما آنها به طور اساسی در عصر دیجیتال تغییر نکرده اند. با این حال، چه چیزی تغییر کرده است این است که محیط داده ها در آزمایش های دیجیتال فرصت های جدیدی مانند استفاده از روش های یادگیری ماشین برای تخمین ناهمگونی اثرات درمان ایجاد کرده است (Imai and Ratkovic 2013) .

مراکز اعتبار داخلی در اطراف اینکه آیا روش های تجربی به درستی انجام شد. بازگشت به آزمایش Schultz et al. (2007) ، سوالاتی در مورد اعتبار داخلی می تواند در مورد تصادفی بودن، تحویل درمان و اندازه گیری نتایج حاصله متمرکز باشد. به عنوان مثال، شما ممکن است نگران باشید که دستیاران تحقیق اعتبار سنج الکتریکی را بخوانند. در واقع، شولتز و همکارانش در مورد این مشکل نگران بودند و آنها یک نمونه از متر را دوبار خواندند. خوشبختانه، نتایج اساسا یکسان بود. به طور کلی، آزمایش شولتز و همکارانش به نظر می رسد اعتبار بالا داخلی داشته باشد، اما این همیشه اینطور نیست: زمینه های پیچیده و آزمایش های آنلاین اغلب به مشکلات در واقع ارائه درمان مناسب به افراد مناسب و اندازه گیری نتایج برای همه. خوشبختانه، عصر دیجیتال می تواند نگرانی های مربوط به اعتبار داخلی را کاهش دهد، زیرا اکنون راحت تر است تا اطمینان حاصل شود که درمان به کسانی که قرار است آن را دریافت و تحویل نتایج برای همه شرکت کنندگان تحویل داده شود.

محاسبه اعتبار محور در اطراف مسابقه بین داده ها و ساختارهای نظری. همانطور که در فصل 2 توضیح داده شده است، ساختار مفاهیم انتزاعی است که دانشمندان علوم اجتماعی به آن پرداخته اند. متاسفانه، این مفاهیم انتزاعی همیشه تعاریف و اندازه گیری های واضح ندارند. بازگشت به Schultz et al. (2007) ادعا می کند که هنجارهای اجتماعی اجباری می تواند مصرف برق را کاهش دهد، پژوهشگران باید طراحی کنند که "هنجارهای اجتماعی اجباری" (به عنوان مثال یک شکلک) و اندازه گیری "مصرف برق" را طراحی کنند. در آزمایشات آنالوگ، بسیاری از محققان درمان های خود را طراحی و نتایج خود را اندازه گیری کردند. این رویکرد تضمین می کند که تا حد امکان آزمایشات با سازه های انتزاعی مطالعه می شوند. در آزمایش های دیجیتال که در آن محققان با شرکت ها یا دولت ها برای ارائه درمان و استفاده از سیستم های همیشه بر روی داده ها برای اندازه گیری نتایج همکاری می کنند، مسابقه بین آزمایش و ساختارهای نظری ممکن است کمتر تنگ شود. بنابراین، من انتظار دارم که اعتبار سازنده در آزمایش های دیجیتال بیشتر نگران کننده در آزمایشات آنالوگ باشد.

در نهایت، اعتبار بیرونی در اطراف این که آیا نتایج این آزمایش را می توان به موقعیت های دیگر تعمیم داد یا نه. بازگشت به Schultz et al. (2007) می تواند بپرسد که آیا این افراد همان ایده را با استفاده از اطلاعات مربوط به مصرف انرژی خود در ارتباط با همتایان خود و نشانه ای از هنجارهای مقدماتی (به عنوان مثال شکلک) در تنظیمات مختلف برای بسیاری از آزمایشات به خوبی طراحی شده و به خوبی اجرا می شود، نگرانی ها در مورد اعتبار خارجی سخت ترین مسئله است. در گذشته، این بحث ها در مورد اعتبار خارجی غالبا بیش از یک گروه از مردم نشسته در یک اتاق سعی در تصور اینکه چه اتفاقی افتاده بود، اگر روش ها با روش دیگری، یا در مکان های مختلف و یا با شرکت کنندگان مختلف . خوشبختانه، عصر دیجیتال، محققان را قادر می سازد تا از این گمانه زنی ها بدون اطلاعات استفاده کنند و تجربیات روایی بیرونی را ارزیابی کنند.

از آنجا که نتایج Schultz et al. (2007) بسیار هیجان انگیز بود، شرکتی با نام Opower که با خدمات عمومی در ایالات متحده مشارکت کرده بود، به طور گستردهتر به درمان پرداخت. بر اساس طراحی Schultz et al. (2007) ، Opower گزارشات Home Energy را سفارشی کرد که دارای دو ماژول اصلی بود: یکی نشان دادن مصرف برق خانوار نسبت به همسایگانش با شکلک و یک راهنمایی برای کاهش مصرف انرژی (شکل 4.6). سپس، با مشارکت با محققان، Opower آزمایشهای کنترل شده تصادفی را برای ارزیابی تأثیر این گزارشات انرژی خانگی انجام داد. گرچه درمان در این آزمایشها به طور معمول به صورت فیزیکی انجام می شد - معمولا از طریق پست الکترونیکی حلزون قدیمی - نتیجه با استفاده از دستگاه های دیجیتال در دنیای فیزیکی (به عنوان مثال، متر برق) اندازه گیری شد. علاوه بر این، به جای جمع آوری دستی این اطلاعات با دستیارهای تحقیقاتی که در هر خانه بازدید می کردند، آزمایشات Opower همگی با شرکت های برق انجام می شد که به محققان اجازه می داد تا به خواندن قدرت دست یابند. بنابراین، این آزمایشات دیجیتالی تقریبا در مقیاس وسیع با هزینه متغیر کم انجام شد.

شکل 4.6: گزارشات انرژی خانگی دارای یک ماژول مقایسۀ اجتماعی و یک ماژول اقدامات عملی بود. مجددا توسط Allcott (2011) مجددا تولید می شود، شکل 1 و 2.

شکل 4.6: گزارشات انرژی خانگی دارای یک ماژول مقایسۀ اجتماعی و یک ماژول اقدامات عملی بود. Allcott (2011) توسط Allcott (2011) تولید می شود، شکل 1 و 2.

در ابتدای آزمایش هایی که شامل 600،000 خانوار از 10 سایت مختلف است، Allcott (2011) دریافت که گزارش انرژی خانه، مصرف برق را کاهش داده است. به عبارت دیگر، نتایج مطالعات بسیار وسیع تر و جغرافیایی متفاوت، به طور کیفی شبیه نتایج Schultz et al. (2007) . علاوه بر این، در تحقیقات بعدی شامل 8 میلیون خانوار اضافی از 101 سایت مختلف، Allcott (2015) دوباره دریافت که گزارش انرژی خانه به طور مداوم کاهش مصرف برق است. این مجموعه بزرگتر از آزمایشات نیز یک الگوی جالب جدید را نشان داد که در هر آزمایش تنها قابل مشاهده نیست: اندازه اثر در آزمایش های بعدی (شکل 4.7) کاهش یافته است. Allcott (2015) حدس زد که این کاهش اتفاق افتاد، زیرا در طول زمان، درمان به انواع مختلف شرکت کنندگان اعمال شد. به طور خاص، آب و برق با مشتریان متمرکز بر محیط زیست بیشتر احتمال دارد برنامه را قبلا اتخاذ کرده و مشتریانشان بیشتر به درمان پاسخ دهند. به عنوان کمپانی هایی که مشتریان کمتری را برای محیط زیست جذب کرده اند، این برنامه در حال کاهش است. بنابراین، به طور تصادفی در آزمایشات، تضمین می کند که گروه درمان و کنترل مشابه هستند، تصادفی بودن در سایت های تحقیقاتی، تضمین می کند که تخمین ها را می توان از یک گروه از شرکت کنندگان به یک جمعیت عمومی تر تعمیم داد (به فصل 3 در مورد نمونه برداری فکر کنید). اگر سایت های تحقیقاتی به طور تصادفی نمونه برداری نگردند، پس از آن تعمیم، حتی از یک آزمایش کاملا طراحی شده و انجام شده، می تواند مشکل ساز باشد.

شکل 4.7: نتایج 111 آزمایش که تأثیر گزارش خانه انرژی بر مصرف برق را بررسی می کنند. در سایت هایی که در آن برنامه بعدها به تصویب رسید، آن را تمایل به اثرات کوچکتر. Allcott (2015) استدلال می کند که منبع اصلی این الگویی این است که سایت هایی با مشتریان متمرکز بر محیط زیست بیشتر احتمال دارد برنامه را قبلا استفاده کنند. شکل 3 از Allcott (2015) اقتباس شده است.

با هم، این 111 آزمایش - 10 در Allcott (2011) و 101 در Allcott (2015) - حدود 8.5 میلیون خانوار از سراسر ایالات متحده را مشغول کرده است. آنها به طور مداوم نشان می دهند که گزارش های انرژی در خانه باعث کاهش مصرف برق متوسط می شود، که نتیجه آن یافته های اصلی شولتز و همکارانش از 300 خانه در کالیفرنیا است. علاوه بر تکرار این نتایج اصلی، آزمایشات پیگیری نیز نشان می دهد که اندازه اثر متفاوت از مکان است. این مجموعه آزمایش ها همچنین دو مورد کلی عمومی را در خصوص آزمایش های دیجیتالی دیجیتال نشان می دهد. اولا، محققان قادر خواهند بود تا تجربیات نگرانی درباره اعتبار خارجی را زمانی که هزینه اجرای آزمایشی کم است، مورد بررسی قرار دهند، و این می تواند در صورتی اتفاق بیفتد که نتیجه با استفاده از یک سیستم همیشه با داده ها اندازه گیری شود. بنابراین، این نشان می دهد که محققان باید به دنبال سایر رفتارهای جالب و مهم که در حال ثبت هستند، و سپس آزمایش های بالای این زیرساخت اندازه گیری را طراحی کنند. دوم، این مجموعه آزمایش ها به ما یادآوری می کند که آزمایشات زمینه دیجیتال فقط آنلاین نیست؛ به طور فزاینده، من انتظار دارم که آنها در همه جا با نتایج بسیاری سنجیده شده توسط حسگر در محیط ساخته شده است.

چهار نوع روایی اعتبارسنجی، اعتبار درونی، اعتبار ساختاری و اعتبار بیرونی، یک چک لیست ذهنی برای کمک به محققان برای ارزیابی اینکه آیا نتایج حاصل از یک آزمایش خاص، نتیجه کلیتری را ارائه می دهد، فراهم می کند. در مقایسه با آزمایشهای آنالوگ، در آزمایشات دوران دیجیتال، باید تجربیات مربوط به اعتبار خارجی را آسانتر کرد و همچنین اعتبار داخلی را نیز آسانتر کرد. از سوی دیگر، مسائل مربوط به اعتبار سازنده، احتمالا در آزمایش های دیجیتال سن، به خصوص آزمایشات میدانی دیجیتالی که مشارکت با شرکت ها را شامل می شود، چالش برانگیزتر خواهد بود.