4.4.1妥当性

この翻訳は、コンピュータによって作成されました。 ×

4.4.1妥当性

妥当性は、実験の結果は、より一般的な結論を裏付けるどのくらいのことをいいます。

実験は完璧ではなく、研究者は考えられる問題を記述するための広範な語彙を開発しています。 妥当性とは、特定の実験の結果がより一般的な結論を支持する程度を指す。社会科学者は、主に4つのタイプに有効性を分割することが役に立ったと評価しています：統計的結論の妥当性、内部妥当性、有効性を構築し、外部の妥当性(Shadish, Cook, and Campbell 2001, chap. 2)これらの概念を習得すれば、実験の設計と分析を評価し改善するための精神的チェックリストが提供され、他の研究者とのコミュニケーションに役立ちます。

統計的結論の妥当性は、実験の統計分析が正しく行われたかどうかを中心に行われます。 Schultz et al. (2007) 、そのような質問は、彼らが\(p\)値を正しく計算したかどうかを中心に考えるかもしれない。実験の設計と分析が必要な統計原則は、この本の範囲を超えていますが、デジタル時代には根本的に変化していません。しかし、変化したのは、デジタル実験のデータ環境が、機械学習手法を使用して治療効果の異質性を推定するなどの新しい機会を創出したことです(Imai and Ratkovic 2013) 。

内部妥当性は、実験手順が正しく実行されたかどうかを中心としています。 Schultz et al. (2007)実験に戻るSchultz et al. (2007)では、内的妥当性についての質問は、無作為化、治療の送達、および結果の測定を中心とする可能性がある。たとえば、リサーチアシスタントが電気メーターを確実に読み取らなかったことを心配するかもしれません。事実、Schultzらはこの問題について心配していました。また、二重に読み取られたメーターのサンプルを持っていました。幸いにも、結果は本質的に同一であった。一般的にSchultzらの実験では、内部の有効性は高いようですが、これは必ずしもそうではありません。複雑なフィールドやオンラインの実験は、適切な人に適切な治療を実際に提供し、全員の結果を測定するという問題に遭遇します。幸いなことに、デジタル時代は、内部妥当性に対する懸念を軽減するのに役立ちます。これは、治療を受け取る予定の人々に治療が確実に提供され、すべての参加者の結果を測定することが容易になるためです。

データと理論構築物の間の一致を中心とした有効性中心を構築する。第2章で議論したように、構造物は社会科学者が主張する抽象的な概念である。残念なことに、これらの抽象的な概念は、常に明確な定義と測定値を持っているわけではありません。 Schultz et al. (2007)戻るSchultz et al. (2007)では、差し迫った社会的規範が電力使用を削減できるという主張は、研究者が「差し迫った社会的規範」（例えば、顔文字）を操作し、「電気使用」を測定する処置を設計することを要求する。アナログ実験では、多くの研究者が独自の治療法を設計し、独自の結果を測定しました。このアプローチは、できるだけ多くの実験が、研究されている抽象的な構造と一致することを保証する。研究者が企業や政府機関と提携して治療を提供し、結果を測定するための常時稼働のデータシステムを使用するデジタル実験では、実験と理論構築物との間のマッチングは厳しくないかもしれません。したがって、私は、構造の妥当性は、アナログ実験よりもデジタル実験でより大きな関心事になる傾向があると考えています。

最後に、 外部妥当性は、この実験の結果が他の状況に一般化できるかどうかを中心にしている。 Schultz et al. (2007)戻るSchultz et al. (2007) 、同じアイデア（人々との関係におけるエネルギー使用量に関する情報と差別的規範（例えば、顔文字など））を提供することが、異なる方法で行われた場合のエネルギー使用量を削減するかどうかを問うことができます別の設定で最もよく設計された実験については、外部の妥当性についての懸念が最も難しい。過去に、外部の妥当性についてのこれらの議論は、手順が異なる方法で、異なる場所で、または異なる参加者によって行われた場合に起こったであろうことを想像しようとしている部屋に座っている人々のグループ。幸いにも、デジタル時代は研究者がこれらのデータフリーの推論を超え、経験的に外部の妥当性を評価することを可能にします。

Schultz et al. (2007)は非常にエキサイティングで、Opowerという名前の会社が、米国内のユーティリティーと提携して治療をより広く展開しました。 Schultz et al. (2007)の設計に基づいて、 Schultz et al. (2007) 、Opowerは、2つの主要なモジュールを持つカスタマイズされた家庭用エネルギーレポートを作成しました：1つは、家庭の電気使用量をその隣人と比較して顔文字で示し、もう1つはエネルギー使用量を下げるためのヒントを提供します。その後、研究者と協力して、Opowerはこれらの家庭エネルギーレポートの影響を評価するために無作為化された実験を実施しました。これらの実験における処理は、通常、通常は旧式のカタツムリの郵便で物理的に行われていましたが、その結果は物理的な世界のデジタル機器（例えば電力計）を使って測定されました。さらに、各家を訪れる研究アシスタントでこの情報を手作業で収集するのではなく、電力会社と協力してOpower実験をすべて行い、研究者が電力測定値にアクセスできるようにしました。したがって、これらの部分的デジタル場実験は、低コストで大規模に実行されました。

図4.6：家庭のエネルギーレポートには、ソーシャル比較モジュールとアクションステップモジュールがありました。 Allcott（2011）の許可を得て再現されました（図1および2）。

図4.6：家庭のエネルギーレポートには、ソーシャル比較モジュールとアクションステップモジュールがありました。 Allcott (2011)許可を得て再現されましたAllcott (2011)図1および2）。

Allcott (2011) 、10の異なるサイトからの600,000世帯を対象とした最初の実験で、Home Energy Reportが電力消費を削減したことを発見しました。言い換えれば、はるかに大きく、より地理的に多様な研究の結果は、 Schultz et al. (2007)結果と質的に類似していたSchultz et al. (2007) 。さらに、 Allcott (2015) 、101の異なるサイトから800万世帯の世帯を対象としたその後の研究でも、Home Energy Reportが一貫して電力消費を削減したことを再度確認しました。この実験のより大きなセットでは、単一の実験では見えない興味深い新しいパターンが明らかになりました。後の実験で効果のサイズが減少しました（図4.7）。 Allcott (2015)は、時間とともにこの治療法が異なるタイプの参加者に適用されていたため、この減少が起こったと推測しました。より具体的には、より環境に配慮した顧客を持つユーティリティは、より早期にプログラムを採用する可能性が高く、顧客は治療に対してより敏感であった。環境に配慮されていない顧客がこのプログラムを採用しているため、その有効性は低下するように見えました。したがって、実験における無作為化が治療と対照群が似通っているのと同様に、研究現場での無作為化は、ある集団の参加者からより一般的な集団への推定を一般化することを確実にする（サンプリングについては第3章を参照）。リサーチサイトが無作為にサンプリングされないと、完全に設計され、実施された実験でさえ、一般化は問題になる可能性があります。

図4.7：家庭エネルギー報告による電力消費の影響をテストした111の実験の結果。プログラムが後に採用されたサイトでは、それはより小さな効果を持つ傾向がありました。 Allcott (2015)は、このパターンの主な原因は、より環境に配慮された顧客を持つサイトが、プログラムを早期に採用する可能性が高いことであると主張している。 Allcott (2015) （図3 Allcott (2015)から適応されています。

Allcott (2011) 10件、 Allcott (2015) 101件のこの111件の実験では、米国全土から約850万世帯が飼育されました。彼らは一貫して、家庭エネルギー報告書が平均的な電力消費を削減していることを示しています。これは、カリフォルニア州の300戸の家屋からのSchultzとその同僚の元の調査結果を裏付けています。フォローアップ実験は、これらの元の結果を複製するだけでなく、効果の大きさが場所によって異なることも示しています。この一連の実験では、部分的にデジタル・フィールド実験に関する2つのより一般的な点も説明されています。第1に、実験を実行するコストが低い場合に外部の妥当性に対する懸念に経験的に対処することができ、その結果が常に常時稼働のデータシステムによって測定されている場合に発生する可能性があります。したがって、すでに記録されている他の興味深く重要な振る舞いを見据えて、既存の測定インフラストラクチャの上に実験を設計する必要があることを示唆しています。第二に、この一連の実験は、デジタルフィールド実験が単なるオンラインではないことを思い起こさせます。ますます、私は彼らがどこにいても、構築された環境内のセンサーによって測定された多くの結果が期待されます。

4つのタイプの妥当性 - 統計的結論妥当性、内部妥当性、構築有効性、外部妥当性は、特定の実験の結果がより一般的な結論を支持するかどうかを研究者が評価するのを助ける精神的チェックリストを提供する。アナログ時代の実験と比較して、デジタル時代の実験では、経験的に外部の妥当性を扱う方が簡単であるべきであり、内部の妥当性を保証することもより容易でなければならない。一方、デジタル時代の実験、特に企業とのパートナーシップを含むデジタルフィールド実験では、構築の妥当性の問題はおそらくより困難になるでしょう。