4.6.2 、絞り込みを交換し、削減します

この翻訳は、コンピュータによって作成されました。 ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.6.2 、絞り込みを交換し、削減します

、非実験研究と実験を置き換える治療法を改良し、参加者の数を減らすことによって、あなたの実験はより人間的なことを確認します。

私はデジタル実験を計画について提供したいと思いますアドバイスの2枚目の倫理に関するものです。ウィキペディアショーでbarnstars上Restivoとバン・デ・Rijt実験として、コストを減少倫理は研究デザインのますます重要な一部となることを意味します。動物を含む実験を導くために開発された倫理原則：私は第6章で説明します人体実験を導く倫理的なフレームワークに加えて、デジタル実験を設計する研究者はまた、異なるソースからの倫理的なアイデアに描画することができます。具体的には、 動物愛護実験技術の彼らの画期的な本の原則で、 Russell and Burch (1959) 、絞り込みを交換し、削減：動物実験を指針とすべき三原則を提案しました。私はこれらの3つのRのもを使用-にできることは、わずかに修正された形-する人体実験の設計を導く提案したいと思います。特に、

置き換え：可能な場合は侵襲性の低い方法で実験を交換してください
絞り込み：可能な限り無害化するために治療を絞り込みます
削減：可能な限りあなたの実験では、参加者の数を減らします

これらの3つのRのコンクリートを作ると、彼らは潜在的に、より良く、より人道的な実験設計につながることができますどのように示すために、私は倫理的な議論を生成し、オンラインでのフィールド実験を説明します。それから私は、3つのRのは、実験の設計に具体的かつ実践的な変更を提案方法を説明します。

最も倫理的議論のデジタルフィールド実験の一つはアダムクレイマー、ジェイミーGillroy、およびジェフリー・ハンコックが実施した「感情伝染」である(2014)実験は、Facebook上で行われ、科学的かつ実用的な質問のミックスによって動機づけられました。当時、ユーザーがFacebookで相互作用する支配的な方法は、ニュースフィード、ユーザーのFacebookの友人からFacebookのステータスアップデートのアルゴリズムキュレーションセットがありました。 Facebookの一部の批評家は、ニュースフィードが主に正の投稿-友人彼らの最新の披露があるため、自分たちの生活を比較してあまりエキサイティングなように見えるので、パーティーを-それは、ユーザーが悲しくさせる可能性があることを示唆していました。一方、多分効果は全く逆です。多分あなたの友人あなたが幸せな気分になるだろう良い時間を過ごしてを見て？これらの競合する仮説を-し、対処するために、人の感情は、実験を実行した彼女の友人の感情・クレーマーらによって影響を受けるかについての我々の理解を進めるために。研究者は1週間、4つのグループに70万ユーザーを置い：「陰性減少」群と、負の単語（例えば、悲しい）ランダムにニュースフィードを表示されてからブロックされたとのための投稿を。正の言葉（例えば、幸せ）との投稿がランダムにブロックされた人のために「陽性縮小」基です。及び2つの対照群。「陰性減少」グループのコントロール群では、ポストはランダムに「陰性減少」グループとしてではなく、感情的な内容に関係なく、同じ速度でブロックしました。「陽性低減」グループのコントロール群は、並列に構成しました。この実験の設計は、適切な対照群が常に変更なしのものではないことを示しています。そうではなく、時には対照群は、調査質問が必要とする正確な比較を作成するために治療を受けます。すべての場合において、ニュースフィードから遮断されたポストは、Facebook Webサイトの他の部分を通って、まだユーザーに利用可能でした。

クレイマーらは陽性還元状態の参加者のために、自分のステータスアップデートでは正の単語の割合が減少し、負の言葉の割合が増加したことがわかりました。一方、陰性還元状態の参加者のために、正の単語の割合が増加し、負の単語の割合（図4.23）減少しました。しかし、これらの影響は非常に小さかった：治療とコントロールの間には正と負の言葉の差は約1千の言葉でした。

図4.23：感情的な感染の証拠（クレイマー、ギロリー、ハンコック2014）。正の単語や実験条件により負の単語の割合。バーは推定標準誤差を表します。

図4.23：感情的な感染の証拠(Kramer, Guillory, and Hancock 2014)正の単語や実験条件により負の単語の割合。バーは推定標準誤差を表します。

私は、章の最後にさらに読取部では、この実験の科学的側面についての議論を入れてきましたが、残念ながら、この実験は、倫理的な議論を生成するための最も知られています。この論文は、 米国科学アカデミー紀要に掲載されましたわずか数日後、研究者やプレスの両方からの巨大な抗議がありました。 2主なポイントに焦点を当てた論文の周りアウトレイジ：1）参加者はいくつかの考えを参加者に害を引き起こす可能性があり、治療のための標準的なFacebookの用語のサービスを超えて任意の同意を提供しなかったし、2）研究は、サードパーティ製の倫理を受けていませんでしたレビュー(Grimmelmann 2015)この議論で提起された倫理的な問題は、ジャーナルがすぐに研究のための倫理と倫理審査プロセスについて稀な」懸念の社説表現「パブリッシュさせ(Verma 2014)その後の数年間では、実験は激しい議論と意見の相違の源であり続けており、この不一致は、影の中に企業によって行われている他の多くの実験走行の意図しない効果持っていたかもしれない(Meyer 2014)

感情的な伝染病について、その背景を考えると、私は今3 Rは（あなたが個人的にこの特定の実験の倫理について考えるかもしれないものは何でも）実際の研究のための具体的な、実用的な改善を提案できることを示したいと思います。最初のRは置き換えです：研究者が可能な場合は、低侵襲性と危険な技術を用いた実験を置き換えるために求めるべきです。例えば、むしろ実験を実行するよりも、研究者が自然実験を悪用している可能性があります。第2章で述べたように、自然の実験は、何かが治療の無作為割り当て（軍に召集されるかを決めるために、例えば、宝くじ）を近似し、世界で起こる状況です。自然実験の利点は、研究者が治療を提供する必要がないということです。環境があなたのためにそれを行います。言い換えれば、自然実験で、研究者が実験的に人々のニュースフィードを操作するために必要なかっただろう。

実際には、ほぼ同時に感情伝染の実験と、 Coviello et al. (2014)感情的な伝染病自然実験と呼ぶことができるもの悪用ました。あなたはそれを前に見たことがない場合は操作変数と呼ばれる技術を使用しています彼らのアプローチは、少し複雑です。だから、それが必要だった理由を説明するために、のは、それまでに作成してみましょう。一部の研究者は感情的な伝染を勉強しなければならないかもしれないという最初のアイデアはあなたのニュースフィードは、あなたのニュースフィードは非常に否定的だった日に自分の投稿には非常に肯定的だった日に自分の投稿を比較することであろう。目標は、ちょうどあなたの投稿の感情的な内容を予測することでしたが、目標は、あなたの投稿にあなたのニュースフィードの因果効果を研究することであるならば、このアプローチには問題がある場合は、このアプローチは大丈夫だと思います。この設計に問題があることを確認するには、感謝祭を考えます。米国では、正のポストはスパイクと負のポストは感謝祭に急落します。したがって、感謝祭に、研究者が自分のニュースフィードは非常に肯定的だったことを見ることができるとあなたにも肯定的なものを掲載していること。しかし、あなたの肯定的な投稿がないあなたのニュースフィードの内容によって感謝祭によって引き起こされた可能性があります。その代わりに、推定するために、因果効果の研究者が直接あなたの感情を変更することなく、あなたのニュースフィードの内容を変更する何かが必要。天気：幸いなことに、すべての時間が起こっているようなものがあります。

コビエロらは、誰かの街で雨の日は、平均で、約1％ポイント陽性であるポストの割合を減少させ、約1％ポイント陰性のポストの割合を増加させることがわかりました。そして、コビエロらは実験的に誰のニュースフィードを操作する必要なく、感情的な感染を研究するためにこの事実を悪用しました。本質的にはどのような彼らがしたことはあなたのポストはあなたの友人が住んでいる都市で天候の影響を受けたかの尺度です。これは理にかなっている理由を確認するには、ニューヨーク市に住んでいるとあなたはシアトルに住んでいる友人を持っていることを想像してみてください。今では開始1日にシアトルで雨が降っていることを想像してみてください。シアトルのこの雨が直接あなたの気分には影響しませんが、それはあなたのニュースフィードが原因であなたの友人の投稿の少ない正、より陰性であることが原因となります。したがって、シアトルの雨がランダムにあなたのニュースフィードを操作します。信頼性の高い統計的処理にこの直感を回すには、複雑である（とコビエロらによって使用される正確なアプローチは、ビット非標準である）ので、私はさらに読取部でより詳細な議論を入れています。コビエロと同僚のアプローチについて覚えておくべき最も重要なことは、それが潜在的に参加者を害する可能性が実験を実行する必要なく、感情的な感染を研究するためにそれらを有効にし、それは他の多くの設定では、他での実験に置き換えることができる場合もあるということです技術。

3ルピー第二は絞り込みです：研究者は、可能な最小の害を引き起こすために、その治療法を改良するために求めるべきです。例えば、むしろ正または負のいずれかであったコンテンツをブロックよりも、研究者が正または負のあったコンテンツを後押ししている可能性があります。このブースト設計では、参加者のニュースフィードの感情的な内容を変更していただろうが、それは批評家が発現していることが懸念の一つ対処しているだろう：実験は、そのニュースフィードに重要な情報を見逃して、参加者が発生することがありましたことを。クレイマーらによって使用される設計では、重要なメッセージではないものとしてブロックされるなどの可能性があります。しかし、ブーストのデザインで、変位されるメッセージは、それほど重要なものであろう。

最後に、第3のRは減らしている：研究者が可能な場合は、彼らの実験では、参加者の数を減らすために求めるべきです。アナログ実験の変動費が高いため過去には、この減少は、その設計と解析を最適化するための研究を奨励する、自然に起こりました。ゼロ変動費データがある場合しかし、研究者は、実験の規模にコスト制約に直面していない、これは不必要に大きな実験につながる可能性を秘めています。

例えば、クレイマーらは、彼らの分析をより効率的にするために行動彼らの参加-このような前処理ポスティングなどについて前処理情報を使用することもできました。具体的には、むしろ治療群と対照条件で正の単語の割合を比較するよりも、クレイマーらは、条件との間に正の単語の割合の変化を比較したかもしれません。アプローチは、多くの場合、差の違い-にし、どれが密接に私は章で前述した混合設計（図4.5）に関連していると呼ばれます。これは、各参加者のために、研究者はチェンジスコア（後処理挙動 - 前処理動作を）作成している可能性がされ、その後、治療群と対照条件の参加者の変化のスコアを比較しました。この差イン違いのアプローチは、研究者ははるかに小さいサンプルを使用して同一の統計的信頼度を達成することができることを意味し、統計的に、より効率的です。言い換えれば、「ウィジェット」のような参加者を治療しないことによって、研究者は多くの場合、より正確な推定値を得ることができます。

生データを持たず、違いイン違いのアプローチは、このケースであったであろう正確にどのようにはるかに効率的知ることは困難です。しかし、 Deng et al. (2013) Bingの検索エンジン上の3つのオンラインの実験で、彼らは約50％、その推定値の分散を低下させることができた、と同様の結果がネットフリックスでいくつかのオンライン実験のために報告されていることを報告した(Xie and Aurisset 2016)この50％の分散低減は、感情的な伝染病の研究者は、彼らがわずかに異なる分析方法を使用した場合の半分に彼らのサンプルをカットすることができたかもしれないことを意味します。言い換えれば、分析中の小さな変化で35万人は、実験への参加を免れるされている場合があります。

この時点で35万人が不必要に感情的な伝染病にあった場合、研究者は気にしなければならない理由を不思議に思われるかもしれません。そこに過剰な大きさの懸念が適切にする感情伝染の2つの特定の特徴があり、これらの機能は、多くのデジタルフィールド実験によって共有されている：1）実験は、少なくともいくつかの参加者に危害が発生し、2）参加はなかったかどうかについての不確実性が存在します自発的。これらの二つの特性を用いた実験では、可能な限り小さな実験を保つために賢明と思われます。

結論として、3、絞り込みをR's-交換し、削減-提供研究者が実験的なデザインに倫理を構築することができ原則を。もちろん、感情的な伝染病にこれらの可能な変更のそれぞれは、トレードオフを紹介します。例えば、自然の実験からの証拠は、ランダム化された実験からの証拠としていつものようにきれいではなく、より多くのロジスティック困難ブロックよりも実装があったかもしれないブースト。だから、これらの変更を示唆する目的は、他の研究者の意思決定を第二推測することはありませんでした。むしろ、それは、3つのRのは、現実的な状況に適用することができる方法を示すことでした。