4.6.2デザインに倫理を組み込む：交換、改善、削減

この翻訳は、コンピュータによって作成されました。 ×

4.6.2デザインに倫理を組み込む：交換、改善、削減

、非実験研究と実験を置き換える治療法を改良し、参加者の数を減らすことによって、あなたの実験はより人間的なことを確認します。

デジタル実験の設計について私が提供したいアドバイスの第2の部分は、倫理に関するものです。ウィキペディアのバーンスタスターでのRestivoとvan de Rijtの実験では、コストの削減は倫理が研究デザインのますます重要な部分になることを意味しています。第6章で説明する人体の研究を導く倫理的枠組みに加えて、デジタル実験を設計する研究者は、動物を含む実験を導くために開発された倫理的原則とは異なる倫理観を引き出すことができます。特に、画期的な実験的手法であるRussell and Burch (1959)画期的な本では、動物の研究の指針となる3つの原則、すなわち置換、精緻化、縮小を提案した。これらの3つのRは、人間の実験設計を導くために少し修正された形でも使用できることを提案したいと思います。特に、

置換：可能であれば、より侵襲性の低い方法で実験を置き換えます。
再調整：できるだけ無害化するように治療を改善する。
Reduce：実験参加者の数をできるだけ減らしてください。

これらの3つのRを具体的にし、それらが潜在的により人間的な実験デザインにつながる可能性を示すために、倫理的議論を生み出すオンラインフィールド実験について説明します。次に、3つのRがどのようにして実験の設計に具体的かつ実際的な変化を示唆するかを説明します。

最も倫理的に議論されたデジタルフィールド実験の1つは、Adam Kramer、Jamie Guillroy、Jeffrey Hancock (2014)によって行われ、 "Emotional Contagion"と呼ばれています。この実験はFacebookで行われ、実用的な質問。当時、ユーザーがFacebookと対話する支配的な方法は、ユーザーのFacebookの友人からのアルゴリズムによるキュレーションされたFacebookステータス更新のセットであるニュースフィードでした。 Facebookの批判者の中には、ニュースフィードのほとんどが肯定的な投稿をしているため、最新のパーティを見せていることから、ユーザーの生活はそれほど刺激的ではないように見えることがあります。一方、おそらく効果はまったく逆です：あなたの友人が楽しい時間を過ごすのを見ると、あなたが幸せになれるでしょう。このような競合する仮説に対処し、友人の感情によって人の感情がどのように影響を受けるかを理解するために、Kramerらは実験を行いました。彼らは約70万人のユーザーを1週間にわたって4つのグループに分けました。否定的な言葉（例えば「悲しい」）を含む投稿がニュースフィードにランダムに表示されないようにする「否定率低減」グループ。肯定的な言葉（例えば、「幸せ」）を持つ投稿がランダムにブロックされた「陽性率低減」グループ。 2つの対照群。「陰性減少」群の対照群では、感情的内容に関わらず、「陰性減少」群と同じ速度で郵便はランダムに遮断された。「陽性低減」群の対照群は、並行して構築された。この実験の設計は、適切な対照群が常に変化のない対照群であることを示している。むしろ、コントロールグループは、研究課題に必要な正確な比較を作成するために治療を受けることがあります。どのような場合でも、ニュースフィードからブロックされた投稿は、Facebookのウェブサイトの他の部分を通じてユーザーに引き続き利用できました。

Kramerらは、陽性率が低下した状態の参加者について、状態更新における陽性語の割合が減少し、陰性語の割合が増加することを見出した。一方、否定率低下状態の参加者は、正の単語の割合が増加し、負の単語の割合が減少した（図4.24）。しかし、これらの効果は非常に小さかった。治療とコントロールとの間の陽性および陰性の単語の差は、1,000語で約1であった。

図4.24：情緒的伝染の証拠(Kramer, Guillory, and Hancock 2014) 。陰性化された状態の参加者は、より少ない否定的な言葉およびより積極的な言葉を使用し、陽性率の低下した状態の参加者は、より多くの否定的な言葉およびより少ない積極的な言葉を使用した。バーは推定された標準誤差を表す。 Kramer, Guillory, and Hancock (2014) 、図1から適応されています。

この実験で生じた倫理的な問題について議論する前に、この章の前半のアイディアを使って3つの科学的な問題を説明したいと思います。第一に、実験の実際の詳細が理論上の主張にどのように結びついているかは不明である。言い換えれば、構成の妥当性について疑問がある。（1）人が投稿する言葉は自分の感情の良い指標であることは明らかではないし、（2）感情の状態の良い指標であることは明らかではない研究者が使用した特定のセンチメント分析手法が、感情を確実に推測できることが明らかになった(Beasley and Mason 2015; Panger 2016) 。換言すれば、バイアスされた信号の悪い尺度が存在する可能性がある。第2に、実験の設計と分析は、誰が最も影響を受けたか（すなわち、治療効果の異質性の分析はない）とそのメカニズムについて何も教えてくれません。この場合、研究者は参加者に関する多くの情報を持っていましたが、本質的に分析のウィジェットとして扱われました。第3に、この実験における効果の大きさは非常に小さかった。治療条件と対照条件との間の差異は1,000語で約1である。彼らの論文で、Kramerらは、毎日何億人ものニュースフィードにアクセスしているため、このサイズの効果が重要であるというケースを作り出しています。言い換えれば、たとえ各人にとって効果が小さいとしても、それらは総計で大きいと主張する。この議論を受け入れるとしても、感情の広がりに関するより一般的な科学的質問に関しては、このサイズの効果が重要かどうかは依然として明確ではありません(Prentice and Miller 1992) 。

これらの科学的な質問に加えて、この論文がNational Academy of SciencesのProceedingsに掲載されたわずか数日後、研究者と報道陣からの激しい抗議があった（私はこの議論の議論を第6章）。この討論で提起された問題は、倫理と研究の倫理的レビュープロセス(Verma 2014)に関する稀な「懸念の編集上の表現」を発表した。

Emotional Contagionについての背景を考えると、3つのRが現実の研究（具体的な実験の倫理について個人的に考えているものであれ）の具体的かつ実用的な改善を示唆していることを示したいと思います。最初のRは置き換えられます。研究者は、可能であれば、侵襲性が低くリスクの高い手法で実験を置き換えるよう努めなければなりません。たとえば、ランダム化された制御実験を実行するのではなく、 自然実験を利用することができました。第2章で説明したように、自然実験は、無作為に割り当てられた処理（例えば、誰が軍隊に起草されるかを決定するための抽選など）に近い、世界で何かが起こる状況です。自然実験の倫理的利点は、研究者が治療法を提供する必要がないということです。環境はそれをあなたに提供します。例えば、感情的伝染実験とほぼ同時に、 Lorenzo Coviello et al. (2014)は、感情的伝染病の自然実験と呼ばれるものを利用していました。 Covielloらは、雨が降っている日に、より多くの否定的な言葉と積極的な言葉を投稿することを発見しました。したがって、天気のランダムな変化を利用することにより、彼らはニュースフィードの変化の影響を、全く介入する必要なしに調べることができました。あたかも天気が実験をしているかのようでした。手続きの詳細はちょっと複雑ですが、私たちの目的にとって最も重要な点は、自然な実験を使うことで、Covielloとその同僚が、独自の実験を行う必要なしに感情の広がりを知ることができたことです。

3つのRのうち第2のRは洗練されています。研究者は治療法を改善してできるだけ無害化するよう努めなければなりません。たとえば、肯定的または否定的な内容をブロックするのではなく、研究者は肯定的または否定的な内容を高めることができました。このブースティングデザインは、参加者のニュースフィードの感情的な内容を変えてしまったが、批評家が表現した問題の1つに参加者がニュースフィードで重要な情報を見逃す可能性があった。 Kramerとその同僚が使用している設計では、重要なメッセージはそうではないものとしてブロックされる可能性があります。しかし、設計を強化すると、メッセージはそれほど重要ではないものになるでしょう。

最後に、3番目のRが削減されます。研究者は、科学的な目的を達成するために必要な最小限の実験参加者数を減らすよう努めなければなりません。アナログ実験では、これは参加者の変動費が高いため自然に起こりました。しかし、デジタル実験、特に可変コストゼロの実験では、研究者は実験の規模に関するコストの制約に直面せず、不必要に大きな実験につながる可能性があります。

たとえば、Kramerらは、分析をより効率的にするために、治療前の投稿行動など、参加者に関する治療前の情報を使用していた可能性があります。より具体的には、治療と管理の条件における陽性語の割合を比較するのではなく、条件間の陽性語の割合の変化を比較することができた。混合設計（図4.5）と呼ばれるアプローチであり、差異推定ツールと呼ばれることもあります。すなわち、各参加者について、研究者は変化スコア（治療後の行動\(-\)治療前行動））を作成してから、治療条件および対照条件における参加者の変化スコアを比較することができた。この差異差アプローチは統計的により効率的であり、研究者ははるかに小さいサンプルを用いて同じ統計的信頼を達成できることを意味する。

未処理のデータを持たずに、差異の見積もりがこの場合にどれほど効率的であったかを正確に知ることは困難です。しかし、大まかなアイデアのために他の関連する実験を見ることができます。 Deng et al. (2013)は、差分差推定器の一形式を使用することにより、3つの異なるオンライン実験で推定値の分散を約50％減少させることができたことを報告した。同様の結果がXie and Aurisset (2016)によって報告されている。この50％の分散の減少は、Emotional Contagionの研究者がわずかに異なる分析方法を使用していた場合、サンプルを半分に減らすことができた可能性があることを意味します。言い換えれば、分析がわずかに変更されたため、350,000人が実験に参加できなくなった可能性があります。

現時点では、350,000人が不必要に感情的な感染症に罹っていたかどうかを研究者が気にするべきか疑問に思うかもしれません。（1）実験が少なくともいくつかの参加者に害を及ぼすかどうかについての不確実性があり、（2）参加者の参加が不確実であることについての不確実性がある。自発的ではありませんでした。これらの機能をできるだけ小さくした実験を続けることは妥当と思われます。

明確にするために、実験のサイズを縮小したいという願望は、ゼロで可変的なゼロコスト実験を行うべきではありません。それは、あなたの実験があなたの科学的な目的を達成するために必要なものより大きくてはならないことを意味します。実験が適切なサイズになっていることを確認する重要な方法の1つは、 電力解析を行うことです(Cohen 1988) 。アナログ時代には、研究者は一般に、彼らの研究があまりにも小さくない（すなわち、不十分ではない）ことを確かめるために力分析を行った。しかし、今や研究者は、彼らの研究があまりにも大きくない（すなわち、過電圧でない）ことを確認するために、力分析を行うべきです。

結論として、研究者が実験設計に倫理を築くのを助けることができる3つのRは、置き換え、精緻化、縮小する原則を提供します。もちろん、Emotional Contagionに対するこれらの変更のそれぞれは、トレードオフを導入します。たとえば、自然実験のエビデンスは、ランダム化された実験のエビデンスと同じくらいきれいではなく、コンテンツのブーストは、コンテンツのブロックよりも論理的に実装が難しいかもしれません。したがって、これらの変化を示唆する目的は、他の研究者の決定を第二に推測することではありませんでした。むしろ、3つのRをどのように現実的な状況で適用できるかを説明することでした。実際、研究デザインでは常にトレードオフの問題が発生し、デジタル時代には、これらのトレードオフにはますます倫理的な考慮が必要になります。後の第6章では、研究者がこれらのトレードオフを理解し、議論するのに役立ついくつかの原則と倫理的枠組みを提供します。