Bit By Bit - ランニング実験

この翻訳は、コンピュータによって作成されました。 ×

活動

難易度：簡単、培地、ハード、とても厳しい
数学を必要とする（ $数学が必要です$ ）
コーディングが必要（）
データ収集（）
私のお気に入り（）

[ 、 ] Berinskyら(2012)は、3つの古典的な実験を複製することによってMTurkを部分的に評価しました。 Tversky and Kahneman (1981)による古典的なアジア疾病の枠組み実験をTversky and Kahneman (1981) 。あなたの結果はTverskyとKahnemanのものと一致しますか？あなたの結果はBerinskyと同僚と一致しますか？何があっても、これはMTurkを調査実験に使用することについて教えてくれますか？
[ 、 ] Schultz et al. (2007)著者の一人である社会心理学者のRobert Cialdiniは、「We Have to Break」と題された多少の舌の中の紙で、 Schultz et al. (2007)は、教授としての仕事から早く退職していると書いていますが、部分的にはラボの実験を中心とした分野（心理学）でフィールド実験を行うことに直面していました(Cialdini 2009) 。 Cialdiniの論文を読んで、デジタル実験の可能性に照らして分裂を再考するよう促す電子メールを書いてください。彼の懸念に取り組む特定の研究例を使用してください。
[ ] van de Rijt and others (2014) 、小さな初期成功がロックインまたは消滅するかどうかを判断するために、無作為に選ばれた参加者に4つの異なるシステムを導入し、長期的な影響を測定しました。同じような実験をすることができる他のシステムについて考えてみませんか？これらのシステムを、科学的価値、アルゴリズム混乱（第2章参照）、倫理の問題の点で評価する。
[ 、 ]実験の結果は参加者によって異なる可能性があります。実験を作成し、2つの異なる採用戦略を使用してMTurkで実験を実行します。結果ができるだけ異なるように、実験と採用戦略を選んでください。たとえば、あなたの募集戦略は、午前と夕方に参加者を募集したり、高給と低賃金の参加者に報酬を与えることができます。このような募集戦略の違いは、参加者のプールや実験結果が異なることにつながります。あなたの結果はどのように異なったのですか？ MTurkで実験を実行していることが明らかになったのは何ですか？
[ 、 $数学が必要です$ 、 ]あなたが感情的伝染実験を計画していたとしましょう(Kramer, Guillory, and Hancock 2014) 。各条件における参加者の数を決定するために、 Kramer (2012)による以前の観察研究の結果を使用する。これらの2つの研究は完全に一致しませんので、あなたが行うすべての仮定を明示的にリストアップしてください：
1. $\alpha = 0.05$と$1 - \beta = 0.8$でKramer (2012)エフェクトの効果を検出するのに必要な参加者の数を決定するシミュレーションを実行します。
2. 同じ計算を分析的に行います。
3. Kramer (2012)の結果は、Emotional Contagion (Kramer, Guillory, and Hancock 2014)過度に動力を与えられていることを考えると、
4. 計算に最大の影響を与えた仮定のうち、
[ 、 $数学が必要です$ 、 ]以前の質問に再び答えてください。しかし今回は、 Kramer (2012)による以前の観察研究を使用するのではなく、 Lorenzo Coviello et al. (2014)による以前の自然実験の結果を使用しますLorenzo Coviello et al. (2014) 。
[ Margetts et al. (2011)およびvan de Rijt et al。 (2014)は、請願書に署名する人々のプロセスを研究する実験を行った。これらの研究のデザインと研究成果を比較し、比較する。
[ ] Dwyer, Maki, and Rothman (2015)は、社会規範と環境保全行動の関係について2つの実地実験を行った。ここに彼らの論文の要約があります：

「環境に優しい行動を促すために心理科学はどのように利用されるのだろうか？ 2つの研究では、公衆浴室の省エネルギー行動を促進するための介入が、記述的規範と個人的責任の影響を検討した。研究1では、誰かが空いている公衆トイレに入る前に光の状態（すなわち、オンまたはオフ）が操作され、その設定の記述的基準が示されました。参加者は、入場時に消灯していた場合、消灯する可能性が有意に高かった。研究2では、光をオフにする基準が同盟国によって実証されたが、参加者自身がそれをオンにする責任を負わない追加の条件が含まれていた。個人的責任は、行動に対する社会規範の影響を緩和した。参加者が光を当てる責任を負わないとき、規範の影響は減少した。これらの結果は、記述的規範と個人的責任がどのように環境への介入の有効性を規制するかを示している。

彼らの論文を読み、研究1の複製を設計する。
[ 、 ]前の質問に基づいて、あなたのデザインを実行してください。
1. 結果はどのように比較されますか？
2. これらの違いを説明するものは何ですか？
[ ] MTurkから募集された参加者を使った実験については、かなりの議論がありました。並行して、学部学生集団から集められた参加者を用いた実験についての実質的な議論もあった。研究参加者としてトルコ人と学部を比較対照する2ページのメモを記入してください。あなたの比較には、科学的問題と物流的問題の両方に関する議論が含まれていなければなりません。
[ ] Jim ManziのUncontrolled (2012)の本は、ビジネスでの実験の力のすばらしい紹介です。この本では、彼は次の話を中継した：

「私はかつて実業家の天才と会談していました。自力で作った億万長者は、実験の力を深く、直感的に過小評価していました。彼の会社は、従来の知恵が必要だと言っていたように、消費者を引きつけ販売を伸ばす素晴らしい店舗用ウィンドウのディスプレイを作成するために多大なリソースを費やしました。専門家は設計後にデザインを慎重にテストし、何年もの間、個々のテストレビューセッションでは、新しいディスプレイデザインの売上に大きなインパクトはありませんでした。シニアマーケティングおよびマーチャンダイジングの役員は、これらの過去のテスト結果をトータルでレビューするためにCEOと会いました。すべての実験データを提示した後、彼らは、従来の知恵は間違っていたと結論付けました。ウィンドウディスプレイは売上を押し上げるものではありません。彼らの推奨措置は、この分野におけるコストと労力を削減することでした。これは、従来の知恵を覆す実験の能力を劇的に実証しました。 CEOの反応はシンプルでした。「私の結論は、あなたのデザイナーはあまり良くないということです。彼の解決策は、店舗の表示デザインの努力を増やし、新しい人にそれをさせることでした」 (Manzi 2012, 158–9)

CEOの懸念はどのタイプの有効性ですか？
[ ]前の質問に基づいて、あなたが実験の結果が議論された会議にいたと想像してください。どのような種類の妥当性（統計的、構成的、内的、外的）ごとに1つずつ、あなたが求めることができる4つの質問は何ですか？
[ ] Bernedo, Ferraro, and Price (2014)は、 Ferraro, Miranda, and Price (2011)節水介入の7年間の効果を研究した（図4.11参照）。この論文では、Bernedoらは、治療が施行された後に移動していない世帯の行動を比較することによって、その効果の背景にあるメカニズムを理解しようとした。すなわち、おおよそ、彼らは治療が自宅または自宅に影響を与えるかどうかを調べようとしました。
1. 論文を読んで、そのデザインについて説明し、その結果を要約します。
2. 彼らの調査結果は、同様の介入のコスト効果をどのように評価すべきかに影響しますか？もしそうなら、なぜですか？そうでない場合は、どうしてですか？
[ ] Schultz et al. (2007)フォローアップでSchultz et al. (2007) 、Schultzらは、2つの状況（ホテルと時差のあるマンション）で異なる環境行動（タオルの再利用）に及ぼす記述的および差し止め規範の影響に関する3回の実験を行った(Schultz, Khazian, and Zaleski 2008) 。
1. これら3つの実験の設計と所見を要約する。
2. どのようにしてSchultz et al. (2007) ？
[ ] Schultz et al. (2007) 、 Canfield, Bruin, and Wong-Parodi (2016)は、電気代の設計を研究する一連の実験的な実験を行った。抽象的に記述する方法は次のとおりです。

調査に基づく実験では、各参加者は、（a）歴史的使用、（b）隣人との比較、および（c）器具の故障を伴う歴史的使用に関する情報を含む、比較的高い電力使用量を有する家庭に対する仮説の電気料金を見た。参加者は、（a）テーブル、（b）棒グラフ、（c）アイコングラフの3つのフォーマットのいずれかですべての情報タイプを見た。我々は3つの主な所見を報告する。第一に、消費者はテーブルが提示されたときに電気使用情報の各タイプを最もよく理解していました。第二に、電気を節約するための嗜好と意図は、フォーマットとは無関係に歴史的使用情報にとって最も強かった。第三に、エネルギー識字率の低い個人は、すべての情報をあまり理解していなかった」

他のフォローアップ研究とは異なり、 Canfield, Bruin, and Wong-Parodi (2016)の関心の主な結果は、実際の行動ではなく、報告された行動である。このタイプの研究の長所と短所は、広範な研究プログラムでエネルギー節約を促進するものであるか？
[ 、 Smith and Pell (2003)は、パラシュートの有効性を実証する研究の風刺的メタ分析を発表した。彼らは結論づけた：

"病気の予防を目的とした多くの介入と同様に、パラシュートの有効性は無作為化比較試験を用いて厳格な評価を受けていない。証拠に基づく医学の支持者は、観察データだけを用いて評価された介入の採用を批判している。エビデンスベースの医学の最も根本的な主人公が、パラレルの二重盲検、無作為化、プラセボ対照、クロスオーバー試験に組織され参加した場合、誰もが恩恵を受ける可能性があると我々は考えている」

実験的証拠の胎児化に反対して、 ニューヨーク・タイムズのような一般的な読者の新聞に適した作品を書く。特定の具体例を提供する。ヒント： Deaton (2010)およびBothwell et al. (2016) 。
[ 、、 ]治療効果の差異の推定量は、平均値の差の推定値よりも正確です。スタートアップソーシャルメディア会社のA / Bテストを担当するエンジニアにメモを書いて、オンライン実験を実行するための差異アプローチの価値を説明します。このメモには、問題の声明、差分差推定器が平均差推定器よりも優れている条件についての直感、および単純なシミュレーション調査が含まれていなければなりません。
[ 、 ]ゲイリー・ラブマンはハーバード・ビジネススクールの教授を務め、世界最大のカジノ会社の1つであるハラーズのCEOに就任しました。彼がHarrah'sに引っ越したとき、Lovemanは顧客行動に関する膨大な量のデータを収集した、頻繁に募集するようなロイヤルティプログラムで会社を変えました。この常時測定システムに加え、会社は実験を開始しました。たとえば、特定のギャンブルパターンを持つ顧客の無料ホテルの夜にクーポンの効果を評価するための実験を実施する場合があります。ラブマンがHarrahの日々のビジネス慣行に対する実験の重要性を説明したのは、次のとおりです。

「あなたが女性を嫌がらせしたり、盗んだり、コントロールグループを持っていなければならないようなものです。これは、Harrah'sで仕事を失うことのできるものの1つで、コントロールグループを運営しているわけではありません。」 (Manzi 2012, 146) 2012、146 (Manzi 2012, 146)

新しい従業員に、なぜラブマンがコントロールグループを持つことが非常に重要だと思うかを説明する電子メールを書いてください。あなたは、あなたの意見を具体的に説明するために、実際のものか作成したものかを含めるようにしてください。
[ 、 $数学が必要です$ ]新しい実験では、ワクチン接種にテキストメッセージリマインダーを受け取る効果を推定することを目指しています。 600人の適格な患者をそれぞれ有する150の診療所が参加したい。あなたが働きたい診療所ごとに100ドルの固定費があり、あなたが送信したいテキストメッセージごとに$ 1の費用がかかります。さらに、あなたが働いている診療所は、誰かが無料でワクチン接種を受けたかどうかを測定します。 $ 1,000の予算があるとします。
1. どのような条件の下で少数の診療所にリソースを集中させ、どんな条件の下でより広範に普及させる方が良いかもしれませんか？
2. あなたの予算で確実に検出できるエフェクトの最小サイズはどのような要因によって決まりますか？
3. 潜在的な資金提供者にこれらのトレードオフを説明するメモを書いてください。
[ 、 $数学が必要です$ ]オンラインコースの大きな問題は、衰退です。コースを始める多くの学生が退職することになります。あなたがオンライン学習プラットフォームで働いているとしたら、プラットフォーム上のデザイナーは生徒がコースから脱落するのを防ぐのに役立つ視覚的なプログレスバーを作成しました。大規模な計算社会科学コースの生徒にプログレスバーの効果をテストしたい。実験で発生する可能性のある倫理的な問題に対処した後、あなたとあなたの同僚は、コースにプログレスバーの効果を確実に検出するのに十分な生徒がいない可能性があると心配します。次の計算では、生徒の半数が進捗バーを受け取り、残りの半数は進捗バーを受け取らないと想定できます。さらに、干渉がないと仮定できます。言い換えれば、参加者は治療やコントロールを受けたかどうかによってのみ影響を受けると考えることができます。他の人々が治療またはコントロールを受けたかどうかによって影響を受けません（より正式な定義については、 Gerber and Green (2012)第8章を参照）。追加の前提条件を把握してください。
1. プログレスバーが、クラスを終了する生徒の割合を1％増加させることが予想されると仮定します。効果を確実に検出するために必要なサンプルサイズはどれくらいですか？
2. プログレスバーが、クラスを終了する学生の割合を10パーセントポイント増加させると予想されると仮定します。効果を確実に検出するために必要なサンプルサイズはどれくらいですか？
3. 今度はあなたが実験をしたことを想像してください。すべての教材を修了した生徒は最終試験に合格しています。プログレスバーを受講した生徒の最終試験のスコアと、受講していない生徒のスコアを比較すると、プログレスバーを受け取っていない生徒は実際に高く評価されています。これは、プログレスバーが生徒に学習を少なくさせたことを意味しますか？この結果データから何を学ぶことができますか？（ヒント： Gerber and Green (2012)第7章を参照）
[ 、、 ]あなたがハイテク企業のデータ科学者として働いていると想像してください。マーケティング部門の誰かが、新しいオンライン広告キャンペーンの投資収益率（ROI）を測定するために計画している実験を評価する際に助力を求めます。 ROIは、キャンペーンの純利益をキャンペーンの費用で割ったものとして定義されます。たとえば、売上に影響を与えないキャンペーンのROIは-100％です。収益がコストに等しいキャンペーンはROIが0になります。コストが2倍の利益を生み出すキャンペーンはROIが200％になります。

実験を開始する前に、マーケティング部門は以前の調査に基づいて以下の情報を提供しています（実際、これらの値はLewis and Rao (2015)報告された実際のオンライン広告キャンペーンの典型です）。
- 顧客あたりの平均売り上げは平均7ドル、標準偏差75ドルの対数正規分布に従います。
- このキャンペーンは、売上高を顧客1人につき0.35ドル増やす予定で、これは顧客1人当たり0.175ドルの利益の増加に相当します。
- 計画されている実験の規模は20万人であり、治療群では半分、対照群では半分である。
- キャンペーンの費用は参加者1人につき0.14ドルです。
- キャンペーンの予想ROIは25％です[ $(0.175 - 0.14)/0.14$ ]。言い換えれば、マーケティング部門は、マーケティングに費やされる100ドルごとに、利益でさらに25ドルを稼ぐと考えています。
この提案された実験を評価するメモを書く。あなたのメモはあなたが作成したシミュレーションの証拠を使用すべきであり、2つの大きな問題に対処する必要があります：（1）この実験を計画どおりに開始することをお勧めしますか？もしそうなら、なぜですか？そうでない場合は、どうしてですか？この決定を下すために使用している基準について明確にしてください。（2）この実験にはどのようなサンプルサイズをお勧めしますか？もう一度、この決定を下すために使用している基準について明確にしてください。

良いメモは、この特定のケースに対処します。より良いメモは、このケースから1つの方法で一般化されます（例えば、キャンペーンの効果の大きさの関数として決定がどのように変化するかを示す）。偉大なメモは完全に一般化された結果を提示するでしょう。あなたのメモは、結果を説明するのに役立つグラフを使用する必要があります。

ここには2つのヒントがあります。まず、マーケティング部門が不必要な情報を提供している可能性があり、必要な情報を提供できなかった可能性があります。第二に、Rを使用している場合、rlnorm（）関数は多くの人々が期待する方法では機能しないことに注意してください。

このアクティビティでは、電力解析、シミュレーションの作成、結果を単語やグラフとの通信で実践できます。 ROIを見積もるために設計された実験だけでなく、あらゆる種類の実験で電力解析を行うのに役立ちます。このアクティビティでは、統計的なテストと電力解析の経験があることを前提としています。電力解析に精通していない場合は、 Cohen (1992) 「A Power Primer」を読むことをお勧めします。

この活動は、 RA Lewis and Rao (2015)素敵な論文に触発されました。これは大規模な実験の基本的な統計的限界を鮮明に示しています。元々広告のリピートを測定できないという挑発的なタイトルを持っていた彼らの論文は、数百万の顧客を巻き込んだデジタル実験を行ってもオンライン広告の投資収益率を測定することがいかに難しいかを示しています。より一般的には、 RA Lewis and Rao (2015)は、デジタル時代の実験にとって特に重要な基本的な統計的事実を示しています。騒々しい結果データの中で小さな治療効果を推定することは困難です。
[ 、 $数学が必要です$ ]前の質問と同じですが、シミュレーションではなく分析結果を使用する必要があります。
[ 、 $数学が必要です$ 、 ]前の質問と同じことを行いますが、シミュレーション結果と分析結果の両方を使用します。
[ 、 $数学が必要です$ 、 ]あなたが上記のメモを書いたとし、マーケティング部門の誰かが新しい情報を提供しているとしましょう。彼らは実験の前後で売上の相関が0.4になると予想しています。これはどのようにあなたのメモの推奨事項を変更するのですか？（平均値の差の推定と差異の推定については、ヒント：4.6.2節を参照）。
[ 、 $数学が必要です$ ]新しいウェブベースの雇用援助プログラムの有効性を評価するために、大学は最終学年に入る10,000人の学生の間でランダム化対照試験を行った。ユニークなログイン情報を持つ無料の定期購読は、無作為に選択された5,000人の学生に独占的なEメールで招待され、他の5,000人の学生はコントロールグループに属し、サブスクリプションはなかった。 12ヵ月後、フォローアップ調査（無反応無し）は、治療群と対照群の両方で、選択した分野でフルタイム雇用を確保した学生は70％であった（表4.6）。したがって、Webベースのサービスは効果がないように見えました。

しかし、大学の巧妙なデータ科学者は、データをもう少し詳しく見て、治療グループの学生の20％だけが電子メールを受け取った後にアカウントにログインしたことに気づいた。さらに、驚くべきことに、ウェブサイトにログインした人のうち、選択した分野でフルタイムの雇用を確保したのは60％に過ぎず、ログインしていない人の料金よりも低く、（表4.7）。
1. 何が起こったのかを説明してください。
2. この実験で治療の効果を計算する2つの異なる方法は何ですか？
3. この結果、すべての生徒にこのサービスを提供する必要がありますか？ちょうど明確にするために、これは簡単な答えの質問ではありません。
4. 彼らは次に何をすべきですか？
ヒント：この質問はこの章で扱う内容を超えていますが、実験で共通する問題に対処しています。このタイプの実験デザインは、参加者が治療に参加することを奨励されるため、 奨励デザインと呼ばれることもあります。この問題は、 片面非準拠 （ Gerber and Green (2012)第5章を参照）の例です。
[ ]さらに検討したところ、前の質問で説明した実験はさらに複雑であることが判明しました。それは、コントロールグループの人々の10％がサービスへのアクセスを支払ったことが判明し、彼らは65％の就職率で終わった（表4.8）。
1. 起こっていると思われることを要約した電子メールを書き、行動のコースを推薦してください。
ヒント：この質問はこの章で扱う内容を超えていますが、実験で共通する問題に対処しています。この問題は、 両面非遵守 （ Gerber and Green (2012)第6章を参照）の例です。

表4.6：キャリアサービス実験のデータの簡単なビュー
グループ	サイズ	雇用率
ウェブサイトへのアクセスを許可	5,000	70％
ウェブサイトへのアクセス権がありません	5,000	70％

表4.7：キャリアサービス実験のデータのより完全な見方
グループ	サイズ	雇用率
ウェブサイトへのアクセスを許可し、ログインしました	1,000	60％
ウェブサイトへのアクセスを許可し、ログインしていない	4,000	72.5％
ウェブサイトへのアクセス権がありません	5,000	70％

表4.8：キャリアサービス実験のデータの完全な見方
グループ	サイズ	雇用率
ウェブサイトへのアクセスを許可し、ログインしました	1,000	60％
ウェブサイトへのアクセスを許可し、ログインしていない	4,000	72.5％
ウェブサイトへのアクセスが許可されておらず、支払い済み	500	65％
ウェブサイトへのアクセスを許可されておらず、支払いもしていない	4,500	70.56％