2.3.2.1不完全

どんなにそれはおそらくあなたが望む情報を持っていないどのように"大きな"あなたの"ビッグデータ"。

ほとんどのビッグデータ・ソースは、彼らはあなたがあなたの研究のために必要な情報を持っていないという意味で、 不完全です。これは、研究以外の目的のために作成されたデータの共通の特徴です。多くの社会科学者は、すでにそのようなあなたが望んでいた質問をしていなかった既存の調査として、不備を扱うの経験を持っていました。残念ながら、不備の問題は、ビッグデータにより極端になる傾向があります。理論の構築を運用化する人口統計、他のプラットフォーム上で動作し、データ:私の経験では、ビッグデータは社会調査のための有用な情報の3種類が欠落する傾向があります。

不完全性のこれらの形態のすべての3つはGueorgi Kossinetsとダンカンワッツによる研究で示されている(2006)大学の社会的ネットワークの進化について。 Kossinetsとワッツは(研究者が電子メールのコンテンツへのアクセスを持っていなかった)何時にメールの送信者に関する正確な情報を持っていた大学からの電子メールログ、作業を開始しています。これらの電子メールの記録は驚くべきデータセットのように聞こえるが、それらは-にもかかわらず、そのサイズと粒度-基本的に不完全。例えば、電子メールのログには、性別や年齢などの学生の人口統計学的特性に関するデータが含まれていません。また、電子メールのログには、電話、テキストメッセージ、または対面の会話のような他の媒体を通じて通信に関する情報が含まれていません。最後に、電子メールログは直接関係、多くの既存の理論における理論の構築に関する情報が含まれていません。私は研究戦略について話すとき、後の章で、あなたがKossinetsとワットは、これらの問題を解決した方法を見ていきます。

不完全性の3種類のうち、理論の構築を運用可能にする不完全なデータの問題が解決することが最も困難である、と私の経験では、それは多くの場合、誤ってデータ科学者によって見過ごされています。大雑把に、 理論的な構築物は、社会科学者が研究抽象的なアイデアですが、残念ながら、これらの構築物は、常に明確に定義し、測定することができません。たとえば、のは、経験的に、よりインテリジェントな人々がより多くのお金を稼ぐことを明らかに単純な主張をテストしようと想像してみましょう。この主張をテストするためには、知性とは何か、「。知性」を測定する必要がある。しかしでしょうか?例えば、 Gardner (2011)知能の8つの異なる形態が実際に存在することを主張しました。そして、正確に知性のこれらの形態のいずれかを測定することができる手順があるのですか?心理学者による作業の膨大な量にもかかわらず、これらの質問はまだ明確な答えを持っていません。したがって、より一層インテリジェントである比較的単純な請求-人々が得るより多くのお金をすることができ、データに理論的な構造を運用化するのは難しい可能性があるため、実験的に評価するのは難しいこと。 「規範」、「社会資本」と「民主主義を含む運用開始することが重要であるが困難な理論の構築物の他の例。「社会科学者は理論的な構築物およびデータ構成概念妥当性との間の一致を呼び出す(Cronbach and Meehl 1955)そして、構築物のこのリストが示唆するように、彼らは研究の目的のために収集されたデータを使用していた場合でも、有効性は社会科学者が非常に長い時間のために苦労していることが問題である構築します。研究以外の目的のために収集されたデータを操作する場合は、構成概念妥当性の問題はさらに困難である(Lazer 2015)

あなたが研究論文を読んでいるときは、構成概念妥当性についての懸念を評価する一つの迅速かつ有用な方法は、通常の構築物で表現された紙、の主な主張を取り、使用するデータの面でそれを再表明することにあります。例えば、よりインテリジェントな人々がより多くのお金を稼ぐことを示していると主張する2仮想的な研究を考慮してください。

  • 1の研究:分析的知性のレイブンプログレッシブ行列のテスト-よく研究試験で高得点を取る人(Carpenter, Just, and Shell 1990)高い彼らの税務申告上の所得を報告し-have
  • 研究2:長い単語は高級ブランドに言及する可能性が高い使用Twitterの人々

いずれの場合においても、研究者は、よりインテリジェントな人々がより多くのお金を稼ぐことが示されていることを主張する可能性があります。しかし、最初の研究で理論的な構築物はよくデータによって操作され、第2にはそうではありません。この例が示すように、さらに、より多くのデータが自動的に構成概念妥当性の問題を解決していません。あなたはそれが百万つぶやき、億つぶやき、または兆つぶやきを関与するかどうかを研究2の結果を疑うべきです。構成概念妥当性の考え方に精通していない研究者については、表2.2は、デジタルトレースデータを用いて、理論的な構築物を操作化している研究のいくつかの例を提供します。

表2.2:より抽象的な理論的概念の尺度として使用されているデジタル・トレースの例。社会科学者は、この試合の構成概念妥当性を呼び出し、それが社会調査のためのビッグデータ・ソースを使用する場合の主要な課題である(Lazer 2015)
デジタルトレース 理論的構成概念 引用
大学からの電子メールログ(メタデータのみ) 社会的関係 Kossinets and Watts (2006) Kossinets and Watts (2009) De Choudhury et al. (2010)
Weibo上のソーシャルメディアの投稿 市民参加 Zhang (2016)
会社からのメールログ(メタデータと完全なテキスト) 組織内の文化フィット Goldberg et al. (2015)

運用開始理論の構築のための不完全なデータの問題が解決するのはかなり難しいですが、不完全な人口統計情報や他のプラットフォーム上の行動に関する不完全な情報の問題に対する3つの一般的な解決方法があります。最初は、実際に必要なデータを収集することです。私はアンケートをご紹介とき、私は、第3章でその一例をご紹介します。残念ながら、データ収集のこの種類は必ずしも可能ではありません。第二主ソリューションは、データ科学者ユーザーの属性推論とどのような社会科学者が帰属を呼んで呼ん行うことです。このアプローチでは、研究者は他の人の属性を推測するために、彼らは何人かの人々に持っている情報を使用します。 Kossinetsとによって使用される第3の可能な解決策-1、複数のデータソースを結合するためにワットが-ました。このプロセスは時々 マージまたはレコードリンケージと呼ばれています。このプロセスのための私のお気に入りのメタファーは、これまでのレコードリンケージに書かれた、非常に最初の論文の非常に最初の段落で提案された(Dunn 1946)

「世界で一人一人が人生のブックを作成します。本書は誕生から始まり、死で終わります。そのページには、生活の中で、原則としてイベントのレコードで構成されています。レコードリンケージは、ボリュームに、この本のページを組み立てるプロセスに与えられた名称です。」

この一節は、1946年に書かれた、そしてその時、人々は生命の書が誕生、結婚、離婚、死亡のような主要なライフイベントを含めることができると考えていました。これらの異なるページ(すなわち、私たちのデジタル・トレース)は、一緒に結合することができればしかし、今、人々についてたくさんの情報が記録されていることを、いのちの書には、信じられないほど詳細な肖像画である可能性があります。生命のこの本は、研究者のための素晴らしいリソースである可能性があります。しかし、生命の書も破滅のデータベースと呼ばれることができた(Ohm 2010)私は下記のビッグデータ・ソースによって収集された情報の機密性について話すときより以下に説明するように、非倫理的な目的のすべての種類のために使用することができました、第6章(倫理)インチ