4.4.1妥当性

妥当性は、実験の結果は、より一般的な結論を裏付けるどのくらいのことをいいます。

いいえ実験は完璧ではありません、と研究者は、可能性のある問題を記述するために豊富な語彙を開発しました。 有効性は、特定の実験の結果は、いくつかのより一般的な結論を支持する程度のことをいいます。統計的な結論の妥当性、内部妥当性、有効性を構築し、外部妥当性:社会科学者は4つの主要なタイプに有効性を分割することが役に立ったと評価している(Shadish, Cook, and Campbell 2001, Ch 2)これらの概念をマスターするあなたの批判と実験の設計と解析を改善するための精神的なチェックリストを提供し、それはあなたが他の研究者との通信に役立ちます。

統計的結論の妥当性は、実験の統計分析が正しく行われたかどうかを中心。文脈においてSchultz et al. (2007)そのような質問は、彼らが正しく、そのp値を計算するかどうかを中心に可能性があります。統計分析は、本書の範囲を超えていますが、私は実験を設計し、分析するために必要な統計的原則がデジタル時代に変化していないと言うことができます。しかし、デジタルの実験で異なるデータ環境は、新しい統計的な機会を作成しない(例えば、治療効果の不均一推定する機械学習法を用いて、 (Imai and Ratkovic 2013)と新しい計算課題(例えば、大規模な実験でブロッキング(Higgins, Sävje, and Sekhon 2016)

内部妥当性は、実験手順が正しく行われたかどうかを中心。実験に戻っSchultz et al. (2007) 、内部妥当性についての質問はランダム化、治療の配信、および成果の測定を中心でした。たとえば、あなたは、研究アシスタントが確実に電気メーターを読んでいないことを心配するかもしれません。実際には、シュルツらはこの問題について心配していたし、彼らは二度読みメートルのサンプルを持っていました。幸いなことに、結果は本質的に同一でした。一般的には、シュルツと同僚の実験は、高い内的妥当性を持っているように見えますが、これは必ずしもそうではありません。複雑なフィールドとオンライン実験は、多くの場合、問題実際に適切な人に適切な治療を提供し、すべての人のための成果を測定するに実行します。幸いなことに、デジタル時代は、それが簡単にそれを受信し、すべての参加者のための成果を測定することになっている人に、設計通りの処理が配信されることを確保することができるため、内部妥当性についての懸念を軽減することができます。

データと理論構築物間の一致の周りの妥当性センター構築します。第2章で述べたように、構築物は、そのことについての社会科学者は理由抽象的な概念です。残念ながら、これらの抽象的な概念は、必ずしも明確な定義や測定値を持っていません。戻るSchultz et al. (2007) 、電力使用を下げることができる社会規範を差止請求は、(例えば、顔文字)」差止社会規範」を操作することになると「電気の使用」を測定するために治療を設計するために、研究者が必要です。類似の実験において、多くの研究者が自分の治療を設計し、自分の結果を測定しました。このアプローチは、可能な限り、実験は研究されている抽象構文を一致させる、ことを保証します。企業や政府との研究者のパートナーの治療法を提供し、常時使用するデータシステムの成果を測定するためにするために、デジタルの実験では、実験と理論の構築物との間の一致は、あまりきついかもしれません。したがって、私は、構成概念妥当性がアナログ実験よりもデジタルの実験では大きな関心事になる傾向があることを期待しています。

最後に、 外的妥当性は、この実験の結果は、他の状況に一般化するかどうかを中心。戻るSchultz et al. (2007) 、1は、求めることができるであろう彼らのエネルギーの仲間との関係での使用や差し止めによる規範(例えば、絵文字)それは異なる方法で行われた場合-reduceエネルギー使用量の信号については、この同じ考え方提供人々情報別の設定?最も適切に設計され、よく実行する実験のために、外部の妥当性についての懸念が対処する最も困難です。過去には、外部の妥当性について、これらの議論は頻繁にプロシージャが別の方法で、または別の場所に、または別の人で行った場合に起こったであろうか想像しようとしている部屋に座っている人のちょうど束でした。幸いなことに、デジタル時代は、これらのデータを含まない憶測を越えて移動し、経験的に外部の妥当性を評価するために研究者を可能にします。

なるのでSchultz et al. (2007) Opowerという会社は、より広く、治療を展開するために、米国でのユーティリティと提携し、とてもエキサイティングでした。設計に基づいて、 Schultz et al. (2007) 、Opowerは、主に2つのモジュール、顔文字やエネルギー使用量(図4.6)を下げるためのヒントを提供するものとその隣に家庭の電力使用量を相対的に示したものを持っていたカスタマイズされたホームエネルギーレポートを作成しました。その後、研究者と共同で、Opowerはホームエネルギーレポートの影響を評価する無作為化比較実験を実行しました。これらの実験での治療は通常、昔ながらのカタツムリを介して物理的に通常配信されたにもかかわらず、メールが結果は物理的な世界でのデジタル機器(例えば、電力計)を用いて測定しました。むしろ手動で各家庭を訪問し、研究助手で、この情報を収集するよりも、Opower実験は、すべての電力測定値にアクセスするための研究を可能にする電力会社と共同で行われました。したがって、これらの部分的にデジタルフィールド実験は、低可変コストで大規模で実施しました。

図4.6:(2011)Allcottでホームエネルギーレポートは、社会的比較モジュールとアクションのステップのモジュールを持っていました。

図4.6:ホーム・エネルギーレポートAllcott (2011)社会的比較モジュールとアクションのステップのモジュールを持っていました。

米国の周りの10電力会社によって提供される60万世帯を伴う実験の最初のセットでは、 Allcott (2011)ホームエネルギー報告書は、1.7%の電力消費量を低下させ見つかりました。言い換えれば、はるかに大きく、より地理的に多様な研究の結果は、からの結果と定性的に類似していたSchultz et al. (2007) 。しかし、効果の大きさは小さかった:中Schultz et al. (2007)の記述と単射規範条件(絵文字付き1)中の世帯は5%彼らの電気使用量を削減しました。この違いのための正確な理由は不明であるが、 Allcott (2011) 、大学が主催する研究の一環として、手書きの絵文字を受信することから大量生産報告書の一部として印刷された絵文字を受け取るよりも、行動に大きく影響を与える可能性がありますことを推測しました電力会社。

さらに、その後の研究では、 Allcott (2015) 、追加の800万世帯を含む追加の101の実験について報告しました。これらの次の101の実験ではホームエネルギー報告書は、人々が自分の電力消費量を低減させるために続けたが、効果はさらに小さかったです。この減少の正確な理由は知られていないが、 Allcott (2015)は、実際の参加者の異なるタイプに適用されたため、報告書の有効性が時間の経過とともに減少するように思われたと推測しました。具体的には、より多くの環境保護分野でのユーティリティが多かった以前のプログラムを採用し、顧客は、治療に対する応答性でした。より環境顧客とのユーティリティプログラムを採用したとして、その有効性が低下するように見えました。このように、実験におけるランダム化は治療群と対照群が類似していることを保証するのと同様に、研究現場でのランダム化は、推定値が(バックサンプリングについては、第3章に思う)より一般集団への参加者の1グループから一般化することができるようになります。調査地は、無作為に抽出されていない場合は、一般化-でも完璧に設計され、実施さから問題となる実験は、することができます。

一緒に、これらの111の実験-10でAllcott (2011)および101 Allcott (2015)アメリカ全土から約8.5万世帯を-involved。彼らは一貫してホームエネルギーレポートは、平均電力消費量、カリフォルニア州の300の家からシュルツや同僚の元の発見をサポートし、結果を減少させることを示しています。ただ、これらの元の結果を複製する以外に、フォローアップの実験はまた、効果の大きさは場所によって異なることを示しています。この一連の実験はまた、部分的にデジタルフィールド実験について、さらに2つの一般的なポイントを示しています。まず、研究者が実験を実行するのコストが低い場合には外的妥当性の懸念に対応経験的にすることができるようになりますし、結果は既に常時オンデータシステムによって測定されている場合、これが発生する可能性があります。したがって、それは研究が既に記録されている他の興味深い、重要な行動のためのルックアウトになり、その後、この既存の計測インフラストラクチャの上に実験を設計する必要があることを示唆しています。第二に、この一連の実験は、デジタルフィールド実験がちょうどオンラインでないことを思い出させてくれる。ますます私は、彼らが構築された環境でのセンサによって測定された多くの成果でどこでもできるようになる予定。

4妥当性の統計的な結論の妥当性の種類、内部妥当性、有効性を構築し、外部の研究者が特定の実験からの結果は、より一般的な結論を支持するかどうかを評価するのに役立つ精神的なチェックリストを妥当性-提供。アナログ年齢実験と比較すると、デジタル時代の実験では、実験的に外的妥当性に対処するために容易であるべきであり、内部の妥当性を確保することが容易であるべきです。 (つまり、Opower実験の場合ではありませんでしたが)一方、構成概念妥当性の問題は、おそらくデジタル時代の実験ではより困難になります。