2.3.1ビッグ

大規模なデータセットは、目的のための手段です。彼らは自分たちで終わりではありません。

ビッグデータソースの最も広く議論されている機能は、ビッグデータソースです。たとえば、多くの論文は、分析したデータの量について議論したり、時には自慢したりすることから始まります。たとえば、Googleブックスコーパスの語学の傾向を研究しているScienceに掲載された論文には、次のものが含まれていました(Michel et al. 2011)

英語(3610億)、フランス語(450億)、スペイン語(450億)、ドイツ語(370億)、中国語(130億)、ロシア語(350億)、ヘブライ語(20億)。最も古い作品は1500年代に出版されました。初期の数十年は、数十万語からなる年間わずか数冊にすぎません。 1800年までに、コーパスは年に9,800万語に増加します。 1900年までには、 2000年までに110億コーパスは人間が読むことはできません。あなたが2000年だけの英語の項目だけを読むことを試みた場合、200単語/分の合理的なペースで、食べ物や睡眠の中断なく、それは80年かかります。手紙の順序は人間のゲノムよりも1000倍長い:もしあなたがそれを一直線に書いたら、それは月に到達し、10回も戻ってくるだろう」

このデータの規模は間違いなく印象的であり、Googleブックスのチームがこれらのデータを一般に公開していることは幸いです(実際には、この章の最後のアクティビティの一部でこのデータを利用しています)。しかし、あなたがこのようなことを見るときはいつでも、データが本当に何をしているのか、データが月に到達して1回だけ戻ることができるのであれば、彼らは同じ研究を行っただろうか?データがエベレスト山頂やエッフェル塔の頂上までしか届かない場合はどうなりますか?

この場合、彼らの研究は、実際には、長い期間にわたって膨大な言葉のコーパスを必要とするいくつかの所見を有する。たとえば、彼らが探求することの1つは、文法の進化、特に不規則動詞の活用率の変化です。いくつかの不規則動詞は非常にまれであるため、時間の経過とともに変化を検出するには大量のデータが必要です。しかし、しばしば、研究者は、大規模なデータソースのサイズを、より重要な科学的目的のための手段ではなく、「どれくらいのデータを拾うことができるかを見る」ように扱うようです。

私の経験では、まれな出来事の研究は、大規模なデータセットが可能にする3つの特定の科学的目的の1つです。 2番目は異質性の研究で、Raj Chettyとその同僚(2014)米国の社会的モビリティに関する研究によって示されている。過去には、多くの研究者が親と子どもの生活成果を比較することで社会的移動性を研究してきました。この文献からの一貫した知見は(Hout and DiPrete 2006)子供を持つ傾向があることであるが、この関係の強さは時間とともに、また国々によって異なる(Hout and DiPrete 2006) 。しかし、最近では、Chettyらは、米国内の地域間の世代間移動性の異質性を推定するために4000万人の税務記録を使用することができました(図2.1)。例えば、カリフォルニア州サンノゼでは13%、ノースカロライナ州シャーロットでは約4%に過ぎないことが分かった。図2.1を少し見てみると、世代間の移動性が他の場所よりも高い場所がある理由が不思議に思うかもしれません。 Chettyと同僚はまったく同じ問題を抱えており、高モビリティ地域では住居分離が少なく、所得格差が小さく、小学校が改善され、社会資本が大きく、家族の安定性が高いことが分かりました。もちろん、これらの相関だけでは、これらの要因がより高い移動性を引き起こすことは示されていませんが、後の作業でChettyと同僚が行ったことである、今後の作業で探求できるメカニズムを示唆しています。このプロジェクトではデータのサイズがいかに重要であったかに注目してください。 Chettyとその同僚が4,000万人ではなく4万人の税金記録を使用した場合、地域の異質性を推定することができず、この変化をもたらすメカニズムを特定しようとする後続の調査を行うことはできませんでした。

図2.1:親が下位20%の所得を得た場合、収入分布の上位20%に達する可能性の推定値(Chetty et al。2014)。異質性を示す地域レベルの見積もりは、当然のことながら、単一の全国レベルの見積もりから生じない興味深く重要な質問につながる。これらの地域レベルの見積もりは、研究者が4,000万人の税金記録を持つ大きなビッグデータソースを使用していたために、部分的に可能になった。 http://www.equality-of-opportunity.org/に掲載されているデータから作成されています。

図2.1:親が下位20%の所得を得た場合、収入分布の上位20%に達する可能性の推定値(Chetty et al. 2014) 。異質性を示す地域レベルの見積もりは、当然のことながら、単一の全国レベルの見積もりから生じない興味深く重要な質問につながる。これらの地域レベルの見積もりは、研究者が4,000万人の税金記録を持つ大きなビッグデータソースを使用していたために、部分的に可能になった。 http://www.equality-of-opportunity.org/に掲載されているデータから作成されています。

最後に、まれな出来事を研究し、異種性を研究することに加えて、大きなデータセットはまた、研究者が小さな違いを検出することを可能にする。実際、業界のビッグデータに重点​​を置いているのは、広告の1%と1.1%のクリックスルー率の差を確実に検出すると、何百万ドルもの追加収益につながるという小さな違いです。しかし、いくつかの科学的状況では、たとえ統計的に有意であっても、そのような小さな差異は特に重要ではないかもしれない(Prentice and Miller 1992) 。しかし、一部のポリシー設定では、集計されたときに重要になることがあります。例えば、2つの公衆衛生介入があり、もう1つがもう少し効果的であれば、より効果的な介入を選ぶことで、何千人もの人生を節約することができます。

bignessは一般的には正しく使用されると良い性質ですが、時には概念的なエラーにつながることがあります。何らかの理由で、大胆さは研究者にデータの生成方法を無視させるように思えます。 bignessはランダムエラーを心配する必要はなくなりますが、実際に 、データの作成方法の偏りに起因するシステムエラーの心配の必要性が増します。たとえば、この章の後半で説明するプロジェクトでは、2001年9月11日に作成されたメッセージを使用して、テロ攻撃に対する反応の高精細タイムラインを作成しました(Back, Küfner, and Egloff 2010) 。研究者は多数のメッセージを持っていたため、実際に観察されたパターン(日中の怒りの増加)がランダムな変化によって説明できるかどうかについて心配する必要はありませんでした。非常に多くのデータがあり、そのパターンは非常に明確であり、すべての統計的統計的テストにより、これが実際のパターンであることが示唆された。しかし、これらの統計的検定は、データの作成方法を知らなかった。実際、パターンの多くは、1日を通してより意味のないメッセージを生成する単一のボットに起因することが判明しました。この1つのボットを削除すると、論文の重要な発見の一部が完全に破壊されました(Pury 2011; Back, Küfner, and Egloff 2011) 。簡単に言うと、体系的なエラーを考えない研究者は、大規模なデータセットを使用して自動ボットによって生成される無意味なメッセージの感情的な内容など、重要でない量を正確に推定するリスクに直面します。

結論として、大きなデータセット自体は終わりではありませんが、まれなイベントの調査、異質性の推定、小さな違いの検出など、特定の種類の調査を可能にすることができます。ビッグデータセットはまた、データの作成方法を無視して、重要ではない量を正確に推定できる研究者もいるようです。