2.4.3近似する実験

この翻訳は、コンピュータによって作成されました。 ×

2.4.3近似する実験

私たちは、私たちが行っていない、あるいはできない実験を近似することができます。大きなデータソースから特に利益を得る2つのアプローチは、自然実験とマッチングです。

いくつかの重要な科学的および政策的問題が原因である。例えば、職業訓練プログラムが賃金に与える影響は何ですか？この質問に答えることを試みている研究者は、訓練に登録した人の収益を、そうでない人と比較することができます。しかし、これらのグループの間の賃金格差のうちどれだけが訓練のためであり、どのくらいの人がサインアップする人々とそうでない人々の間に既存の差異があるのか？これは難しい質問ですが、それは自動的にデータがなくなることはありません。言い換えれば、既存の差異の可能性についての懸念は、あなたのデータにどれだけの労働者がいても関係します。

多くの場合、職業訓練などの治療の因果関係を推定する最も強力な方法は、研究者が無作為に治療を一部の人に提供し、他の人には行わない無作為化された制御実験を実行することです。私は第4章のすべてを実験に費やすので、ここでは実験以外のデータで使用できる2つの戦略に焦点を当てます。最初の戦略は、無作為に（またはほぼ無作為に）治療を一部の人に割り当て、他の人には割り当てない、世界で起こっていることを探すことにかかっています。第2の戦略は、治療を受けた人と受けなかった人との間の既存の差異を説明するために、統計的に非実験データを調整することに依存する。

懐疑的な人は、これらの戦略の両方を避けるべきであると主張するかもしれません。なぜなら彼らは強い前提、評価が難しい仮定、実際にはしばしば違反される仮定を必要とするからです。私はこの主張に同情しているが、それは少し遠すぎると思う。因果推定を非実験データから確実に行うことは難しいと確信していますが、決して試してはいけないとは思いません。特に、実験的でないアプローチは、ロジスティックな制約が実験を妨げたり、倫理的な制約によって実験を実行したくないという場合に役立ちます。さらに、非実験的アプローチは、ランダム化された制御実験を設計するために既に存在するデータを活用したい場合に役立ちます。

先に進む前に、因果推定を行うことは、社会研究における最も複雑なトピックの1つであり、激しい感情的な議論につながる可能性があることにも注意してください。以下では、私はそれについての直観を立てるために各アプローチの楽観的な説明を提供し、そのアプローチを使用する際に生じるいくつかの課題について説明します。各アプローチの詳細については、この章の最後にある資料を参照してください。あなた自身の研究でこれらのアプローチのいずれかを使用する予定の場合は、因果推論に関する多くの優れた書籍の1つを読むことを強くお勧めします(Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) 。

非実験データから因果推定を行う1つのアプローチは、ランダムに治療を他の人ではなく一部の人に割り当てたイベントを探すことです。これらの状況を自然実験といいます。自然実験の最も明白な例の1つは、ジョシュア・アングリスト(1990)調査によるものであり、軍事サービスが収益に与える影響を測定しています。ベトナム戦争中、米国はドラフトを通じて軍隊の規模を拡大した。どの市民が召集されるかを決定するために、米国政府は宝くじを開催した。すべての生年月日は紙に書かれており、図2.7に示されているように、これらの紙片は一度に一つずつ選択され、若い男性が召される順序を決定した（若い女性は対象とならなかったドラフトへ）。その結果に基づいて、9月14日に生まれた男性が最初に呼び出され、4月24日に生まれた男性が2番目に呼ばれた。結局のところ、この宝くじでは、195日に生まれた男性が起草され、171日に生まれた男性は起草されなかった。

図2.7：1969年12月1日のセレクティブ・サービス草案の最初のカプセルを描く議員アレクサンダー・ピーニー（R-NY）ジョシュア・アングスト（1990）は、兵役の効果を推定するために、収益にこれは、自然実験を使った研究の一例です。出典：米国セレクティブサービスシステム（1969）/ウィキメディアコモンズ

図2.7：1969年12月1日のセレクティブ・サービス草案の最初のカプセルを描く議員アレクサンダー・ピーニー（R-NY）ジョシュア・アングスト(1990)は、兵役の効果を推定するために、収益にこれは、自然実験を使った研究の一例です。出典：米国の選択的サービスシステム（1969）/ ウィキメディアコモンズ。

ただちに明らかにならないかもしれないが、草案抽選は無作為化された制御実験と非常に類似している：どちらの状況においても、参加者は治療を受けるためにランダムに割り当てられる。この無作為化された治療の効果を研究するために、Angristは常時稼働している大規模なデータシステムである米国社会保障局（A Social Security Administration）を活用しました。グラストドラフトで無作為に選出された者の情報と政府の行政記録で収集された収入データとを組み合わせることにより、ベテランの収入は比較可能な非退役軍人の収入より約15％少ないと結論付けた。

この例が示すように、時には社会的、政治的、または自然の力が研究者によって活用される方法で治療法を割り当てる場合があり、時にはこれらの治療の効果が常時大きなデータソースに取り込まれます。この研究戦略は、以下のように要約することができます： \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

デジタル時代のこの戦略を説明するために、労働者の生産性に生産的な同僚との協力の効果を評価しようとしたAlexandre MasとEnrico Moretti (2009)調査を考えてみましょう。結果を見る前に、矛盾する期待があることを指摘する価値があります。一方では、生産的な同僚と働くことは、従業員が同僚の圧力のために生産性を向上させることを期待するかもしれません。一方で、仕事を仲間にすることは、とにかく彼女の同僚によって行われるため、勤労者の疲れを抱えていると、労働者が疲れてしまう可能性があります。生産性に対するピアの影響を研究する最も明確な方法は、無作為化された制御実験であり、労働者は異なる生産性レベルの労働者にシフトに無作為に割り当てられ、結果として得られる生産性は全員で測定されます。しかし、研究者は実際のビジネスでの労働者のスケジュールを管理していないため、マスとモレッティはスーパーマーケットでのキャッシャーを含む自然実験に頼らざるを得ませんでした。

この特定のスーパーマーケットでは、スケジューリングが行われた方法とシフトが重なり合った方法のために、各キャッシャーは異なる時間に異なる同僚を持っていました。さらに、この特定のスーパーマーケットでは、キャッシャーの割り当ては、同僚の生産性や店舗の忙しさとは無関係でした。言い換えれば、レジ係のスケジューリングが宝くじによって決定されなかったとしても、それは、労働者が時には無作為に高（または低）生産性の同僚と働くように割り当てられたようなものでした。幸運なことに、このスーパーマーケットには、各キャッシャーが常にスキャンしていたアイテムを追跡するデジタル時代チェックアウトシステムもありました。このチェックアウトログデータから、MasとMorettiは、正確かつ個別的な常時稼働率、つまり1秒間にスキャンされたアイテムの数を作成することができました。 MasとMorettiは、キャッシャーに平均より10％生産性の高い同僚が割り当てられれば、彼女の生産性は1.5％増加すると見積もっています。。なぜ生産性の高いピアがにつながる持つん（この効果の異質性が効果の背後にあるメカニズム （そのために労働者の種類は効果も大きい？）：さらに、彼らは、2つの重要な問題を探求するために大きさとそのデータの豊かさを使用しましたより高い生産性？）。我々は、これらの2つの重要な問題 - 治療効果とメカニズムの異質性 - 第4章で、より詳細に実験を論じるときに戻ります。

これらの2つの研究から一般化して、表2.3は、この同じ構造を持つ他の研究を要約しています。常時オンのデータソースを使用してランダムな変動の影響を測定します。実際には、研究者は自然な実験を見つけるために2つの異なる戦略を使用します。どちらも有益です。ある研究者は常時オンのデータソースから始め、世界のランダムイベントを探します。他の人は世界でランダムなイベントを開始し、その影響を取り込むデータソースを探します。

表2.3：ビッグデータソースを使用した自然実験の例
実質的な焦点	自然実験の源	常時接続のデータソース	参照
生産性に対するピアツーピアの影響	スケジューリングプロセス	チェックアウトデータ	Mas and Moretti (2009)
友情形成	ハリケーンズ	フェイスブック	Phan and Airoldi (2015)
感情の広がり	雨	フェイスブック	Lorenzo Coviello et al. (2014)
ピアツーピア経済移転	地震	モバイルマネーデータ	Blumenstock, Fafchamps, and Eagle (2011)
個人消費行動	2013年米国政府の停止	個人財務データ	Baker and Yannelis (2015)
推薦システムの経済的影響	様々な	Amazonでのブラウジング	Sharma, Hofman, and Watts (2015)
胎児へのストレスの影響	2006年イスラエルとヒズボラ戦争	出生記録	Torche and Shwed (2015)
Wikipediaで読む行動	スノーデンの啓示	ウィキペディアのログ	Penney (2016)
運動に対するピア・エフェクト	天気	フィットネストラッカー	Aral and Nicolaides (2017)

今までの自然実験についての議論では、重要な点は除外しました。自然が提供したものから望むものへと移行することは時には非常に難しいことがあります。ベトナム草案の例に戻りましょう。このケースでは、Angristは兵役の損益への影響を見積もることに関心を持っていました。残念ながら、軍事サービスは無作為に割り当てられていませんでした。むしろそれは無作為に割り当てられた起草されていた。しかし、起草されたすべての人が奉仕されたわけではなく（様々な免除があった）、奉仕者全員が起草されたわけではなかった（人々は奉仕するためにボランティアできる）。起草されたものは無作為に割り当てられていたので、研究者はドラフト中のすべての男性の起草の効果を見積もることができます。しかし、Angristは起草の効果を知りたくはありませんでした。彼は軍隊で働くことの効果を知りたがっていました。しかし、この見積もりを行うには、追加の前提と合併症が必要です。第一に、研究者は損益に影響を与える唯一の方法は兵役によるものであると仮定する必要があります。これは除外制限と呼ばれる前提です。例えば、起草された男性が勤務を避けるために学校に長く滞在したり、雇用主が起草された男性を雇う可能性が低い場合、この仮定は間違っている可能性があります。一般に、除外の制限は重大な前提であり、通常検証することは困難です。排除の制限が正しい場合であっても、すべての男性に対する奉仕の効果を見積もることは、まだ不可能です。代わりに、研究者は、コンパイラー（起草時に役立つが、起草されないときには役立たない男性） (Angrist, Imbens, and Rubin 1996)と呼ばれる男性の特定のサブセットへの影響を推定することしかできないことが分かる。しかし、当事者は当初の人口ではなかった。これらの問題は抽選抽選の比較的清潔なケースでも発生することに注意してください。治療が物理的な宝くじによって割り当てられていない場合、さらなる一連の合併症が生じる。例えば、MasとMorettiのキャッシャーの研究では、同輩の割り当てが本質的にランダムであるという仮定についてのさらなる疑問が生じます。この仮定が強く違反された場合、推定値に偏りが生じる可能性があります。結論として、自然実験は、非実験データから因果推定を行うための強力な戦略であり、大きなデータソースは、自然実験が発生したときにそれを生かす能力を高めます。しかし、自然が提供しているものからあなたが望む見積もりに移行するためには、おそらく大きな注意を払う必要があります。

第2の戦略は、非実験データからの因果推定を行うことについて、あなたが治療を受けた人と受けなかった人との間の既存の差異を説明するために、統計的に非実験データを調整するかどうかによって決まります。そのような調整方法はたくさんありますが、私はマッチングと呼ばれるものに焦点を当てます。マッチングでは、研究者は、非実験データを調べて、治療を受けた人とそうでない人を似ている人のペアを作成します。マッチングの過程で、研究者は実際には剪定している 。すなわち、明白な一致がない場合を破棄する。したがって、このメソッドはより正確にはマッチングとプルーニングと呼ばれますが、私は従来の用語であるマッチングに固執します。

大規模で非実験的なデータソースとのマッチング戦略の力の一例は、Liran Einavおよびその同僚による消費者行動に関する研究(2015)から来ている。彼らはeBayで行われているオークションに興味があり、自分の仕事について説明するにあたり、オークション開始価格がオークションの結果（販売価格や販売確率など）に及ぼす影響に注目します。

販売価格に対する販売価格の影響を推定する最も素朴な方法は、異なる販売価格でオークションの最終価格を単純に計算することです。このアプローチは、開始価格を指定して販売価格を予測したければ問題ありません。しかし、あなたの質問が開始価格の影響に関係している場合、公正な比較に基づいていないため、このアプローチは機能しません。開始価格の低いオークションは、開始価格の高いオークションとはかなり異なる場合があります（たとえば、商品の種類が異なる場合や売り手の種類が異なる場合など）。

非実験データから原因推定を行う際に発生する可能性のある問題について既に認識している場合は、単純なアプローチをスキップして、ゴルフクラブなどの特定のアイテムを固定して販売するフィールド実験を検討することもできますオークションパラメータのセット - 無料配送とオークションを2週間開いていますが、ランダムに割り当てられた開始価格が設定されています。得られた市場結果を比較することによって、このフィールド実験は、開始価格が販売価格に及ぼす影響を非常に明確に測定することができます。しかし、この測定は、1つの特定の製品とオークションパラメータセットにのみ適用されます。さまざまな種類の製品など、結果が異なる場合があります。強い理論がなければ、この単一の実験から実行された可能性のある実験の全範囲に外挿することは困難である。さらに、フィールド実験は十分に高価であるため、試してみる可能性のあるすべてのバリエーションを実行することは不可能です。

素朴で実験的なアプローチとは対照的に、Einavらは第3のアプローチ、すなわちマッチングをとった。彼らの戦略の主な手口は、すでにeBayで行われたフィールド実験と同様のものを発見することです。たとえば、図2.8には、まったく同じゴルフクラブのTaylormade Burner 09 Driverの31件のリスティングのうち、まったく同じ売り手である「budgetgolfer」によって販売されている31件のリスティングが表示されていますが、これらの31のリスティングは、価格、終了日、配送料が含まれます。言い換えれば、それは "budgetgolfer"が研究者のために実験を行っているかのようです。

「budgetgolfer」によって販売されているTaylormade Burner 09 Driverのこれらのリストは、まったく同じ商品が正確に同じ売り手によって販売されているが、わずかに異なる特性を持つ毎回一致する商品リストの一例である。 eBayの大量のログには、文字通り何百万ものマッチしたセットが数百万件のリスティングを含む。したがって、すべてのオークションの最終価格を特定の開始価格と比較するのではなく、Einavとその同僚は、一致するセット内で比較しました。 Einavらは、この数十万の一致セット内の比較結果を結合するために、各アイテムの参照値（例えば、平均販売価格）に関して開始価格と最終価格を再表明した。たとえば、Taylormade Burner 09 Driverの基準値が100ドル（売上ベース）の場合、10ドルの開始価格は0.1、最終価格は120ドルとして1.2と表示されます。

図2.8：一致するセットの例これはまったく同じ人（予算ゴルファー）によって販売されている全く同じゴルフクラブ（テーラーメイドバーナー09ドライバー）ですが、これらの販売の一部はさまざまな条件（例：異なる開始価格）で行われました。 Einavらの許可により再現された。（2015）、図1bを参照のこと。

図2.8：一致するセットの例これはまったく同じ人物（ "budgetgolfer"）が販売しているのとまったく同じゴルフクラブ（Taylormade Burner 09 Driver）ですが、これらの販売の一部はさまざまな条件（例：異なる開始価格）で行われました。 Einav et al. (2015)許可により再現されたEinav et al. (2015) 、図1bを参照のこと。

Einavらはオークションの成果に対する開始価格の影響に関心があったことを思い出してください。まず、線形回帰を使用して、開始価格が高いほど販売の確率が低くなり、開始価格が高いほど最終的な販売価格が高くなることを推定します（売り上げの条件付き）。線形関係を記述し、すべての製品で平均化されたこれらの見積もりだけでは、それほど興味深いものではありません。その後、Einavらはデータの膨大なデータを使用して、さまざまな微妙な見積もりを作成しました。例えば、様々な異なる開始価格について個別に影響を見積もることによって、開始価格と販売価格の関係が非線形であることが分かった（図2.9）。特に、0.05と0.85の間の価格を開始するために、開始価格は売却価格にほとんど影響を与えず、最初の分析によって完全に見逃された所見である。さらに、Einavらは、すべてのアイテムを平均化するのではなく、23種類のアイテム（ペット用品、エレクトロニクス、スポーツ記念品など）の開始価格の影響を見積もった（図2.10）。これらの見積もりによれば、記念品のようなより目立つ品目では、販売価格は販売確率に及ぼす影響が小さく、最終販売価格への影響が大きくなります。さらに、DVDなどのより商品化された商品の場合、開始価格は最終価格にほとんど影響を与えません。言い換えれば、アイテムの23の異なるカテゴリからの結果を組み合わせた平均値は、これらのアイテム間の重要な違いを隠しています。

図2.9：オークション開始価格と売却確率（a）と売却価格（b）との関係。開始価格と販売確率との間には線形の関係がありますが、開始価格と販売価格の間に非線形の関係があります。 0.05から0.85の間の価格を開始するために、開始価格は販売価格にほとんど影響しない。どちらの場合も、関係は基本的に項目値とは無関係です。 Einav et al. (2015) 、図4aおよび4bを参照されたい。

図2.10：品目の各カテゴリからの見積もり。実線のドットは、一緒にプールされたすべてのカテゴリの推定値です（Einav et al。2015）。これらの見積もりによれば、記念品のようなより目立つ品目では、開始価格は販売確率（x軸）に及ぼす影響が小さく、最終販売価格（y軸）に対する影響が大きくなります。 Einav et al。（2015）、図8を参照のこと。

図2.10：品目の各カテゴリからの見積もり。実線のドットは、一緒にプールされたすべてのカテゴリの推定値です(Einav et al. 2015) 。これらの見積もりによれば、記念品などのより目立つ品目では、販売価格は販売確率（ \(x\)軸）に対して効果が小さく、最終販売価格（ \(y\) -軸）。 Einav et al. (2015) 、図8を参照のこと。

あなたがeBayのオークションに特に関心がない場合でも、図2.9と図2.10は、リニアな関係を記述し、さまざまなカテゴリのアイテムを組み合わせる簡単な見積もりよりもeBayをより深く理解する方法を賞賛する必要があります。さらに、フィールド実験でこれらのより微妙な推定値を生成することは科学的に可能ではあるが、そのような実験は本質的に不可能である。

自然実験と同様に、マッチングが悪い見積もりにつながる可能性がある多くの方法があります。私は、見積もりのマッチングに関する最大の懸念は、マッチングで使用されなかったものによって偏りが生じる可能性があると考えています。例えば、主な結果では、Einavとその同僚は、売り手ID番号、商品カテゴリ、商品タイトル、およびサブタイトルの4つの特性について正確に一致しました。項目がマッチングに使用されなかった方法で異なる場合、これは不公平な比較を作成する可能性があります。たとえば、 "budgetgolfer"が冬のTaylormade Burner 09 Driverの価格を下げた場合（ゴルフクラブの人気が低い場合）は、開始価格が低くなると最終価格が下がることになり、実際にはこれが需要の季節変動。この懸案に対処する1つのアプローチは、さまざまな種類のマッチングを試みることです。例えば、Einavらは、マッチングに使用される時間枠を変えながら分析を繰り返しました（マッチしたセットには、1年以内、1ヶ月以内に売却中のアイテムが含まれていました）。幸いにも、彼らはすべての時間窓で同様の結果を見つけました。マッチングに関するさらなる懸念は、解釈から生じる。一致からの見積もりは、一致したデータにのみ適用されます。一致しないケースには適用されません。たとえば、複数のリスティングを持つアイテムにリサーチを限定することで、Einavとその同僚は、プロとセミプロフェッショナルの売り手に焦点を当てています。したがって、これらの比較を解釈する際には、eBayのこのサブセットにのみ適用されることを覚えておく必要があります。

マッチングは、非実験データの公正な比較を見つけるための強力な戦略です。多くの社会科学者にとって、マッチングは実験に次善的だと感じていますが、それは少し修正することができる信念です。（1）異質性の影響が重要であり、（2）マッチングに必要な重要な変数が測定されたときに、大量のデータのマッチングが少数のフィールド実験よりも優れている可能性があります。表2.4に、大きなデータソースでのマッチングの使用方法の他の例を示します。

表2.4：ビッグデータソースとのマッチングを使用するスタディの例
実質的な焦点	ビッグデータソース	参照
警察の暴力に対する射撃の影響	ストップ＆フリスクのレコード	Legewie (2016)
2001年9月11日の家族および近隣住民への影響	投票記録と寄付記録	Hersh (2013)
社会的伝染	通信および製品採用データ	Aral, Muchnik, and Sundararajan (2009)

結論として、非実験データから因果関係を推定することは困難であるが、自然実験や統計的調整（例えば、マッチング）などの手法を用いることができる。いくつかの状況では、これらのアプローチは間違っている可能性がありますが、慎重に配備すると、これらのアプローチは第4章で説明した実験的アプローチの補完的なものになります。さらに、これら2つのアプローチは、オン、大きなデータシステム