2.3.5アクセスできない

企業や政府が保有するデータは、研究者がアクセスするのが困難です。

2014年5月、米国家安全保障局(NASA)はユタ州の農村部にデータセンターを開設しました。これは諜報機関の包括的な全国サイバーセキュリティイニシアチブデータセンターです。しかし、ユタデータセンターとして知られるようになったこのデータセンターは、驚異的な能力を持つと報告されています。あるレポートは、「私的メール、携帯電話、Google検索の完全な内容だけでなく、あらゆる種類の個人データ・トレイル(駐車場の領収書、旅行の旅程、書店の購入など)を含むすべての形式の通信を保管し、処理することができると主張している、およびその他のデジタル「ポケットリター」 (Bamford 2012)ます。ユタデータセンターは、大きなデータに取り込まれた多くの情報の敏感な性質に関する懸念を引き上げるだけでなく、研究者がアクセスできない豊富なデータソースの極端な例です。より一般的には、有用な大規模データの多くのソースは、政府(例えば税金データや教育データ)や企業(検索エンジンへのクエリや電話コールのメタデータ)によって管理され、制限されています。したがって、これらのデータソースは存在していても、アクセスできないため社会調査の目的では無用です。

私の経験では、大学に勤めている多くの研究者が、このアクセス不可能な原因を誤解しています。これらのデータにアクセスできないのは、企業や政府の人々が馬鹿げている、怠け者である、または無関心であるためではありません。むしろ、データアクセスを妨げる深刻な法的、ビジネス的、倫理的な障壁があります。たとえば、Webサイトの一部のサービス期間契約では、従業員がデータを使用したり、サービスを改善することしかできません。したがって、特定の形式のデータ共有は、企業を顧客からの正当な訴訟にさらす可能性があります。また、データの共有に関わる企業にとっては、ビジネス上の大きなリスクがあります。大学の研究プロジェクトの一環として、個人の検索データが誤ってGoogleから流出した場合に、一般の人々がどのように反応するかを想像してみてください。このようなデータ漏洩は、たとえ極端であっても、会社にとって実在するリスクである可能性があります。だから、Googleや大企業は、研究者とデータを共有することを非常に危険にさらしています。

事実、大量のデータへのアクセスを提供する立場にいるほとんどの人は、Abdur Chowdhuryの話を知っています。 2006年、AOLの研究責任者を務めたとき、彼は650,000人のAOLユーザーからの匿名の検索クエリであると考えていた研究コミュニティに意図的にリリースしました。私が知る限り、ChowdhuryとAOLの研究者は良い意思を持ち、彼らはデータを匿名化したと考えました。しかし、彼らは間違っていた。研究者が考えるようにデータは匿名ではなく、ニューヨークタイムズの記者はデータセット内の誰かを容易に識別することができました(Barbaro and Zeller 2006) 。これらの問題が発見されると、ChowdhuryはAOLのウェブサイトからデータを削除したが、それは遅すぎた。データは他のウェブサイトで再転載されていますが、この本を読んでいる間はまだ利用可能です。 Chowdhuryが解雇され、AOLの最高技術責任者が辞任した(Hafner 2006) 。この例が示すように、企業内の特定の個人がデータへのアクセスを容易にする利点は非常に小さく、最悪の場合はひどいものです。

しかし、研究者は、一般の人々がアクセスできないデータにアクセスすることがあります。いくつかの政府は、研究者がアクセスを申請するための手順を持っており、この章の後半の例では、研究者は企業のデータにアクセスすることがあります。例えば、 Einav et al. (2015)はeBayの研究者と提携してオンラインオークションを勉強しました。このコラボレーションの後半で行われた研究についてもっと詳しく説明しますが、成功したパートナーシップに見られる4つの要素、つまり研究者の関心、研究者の能力、企業の関心、 。研究者またはパートナーのいずれかが企業または政府にこれらの成分のいずれかを欠いているため、多くの潜在的な共同作業が失敗することがわかりました。

しかし、ビジネスとのパートナーシップを構築したり、限られた政府データにアクセスすることができても、あなたにはいくつかの欠点があります。まず、他の研究者とあなたのデータを共有することはおそらくできないでしょう。つまり、他の研究者が結果を検証したり拡張したりすることはできません。第二に、あなたが求めることができる質問は限られているかもしれません。企業は彼らを悪く見せるような研究を許可しそうにない。最後に、これらのパートナーシップは、少なくともあなたの結果があなたのパートナーシップの影響を受けていると思うかもしれない利益相反の出現を引き起こす可能性があります。これらの欠点はすべて解決することができますが、誰もがアクセスできないデータを扱うことは、面倒さと欠点があることを明確にすることが重要です。

要約すると、多くの大きなデータは研究者がアクセスできない。データへのアクセスを妨げる深刻な法的、ビジネス的、倫理的な障壁があり、これらの障壁は技術的障壁ではないため技術が向上するにつれて消え去ることはありません。いくつかの国の政府は、いくつかのデータセットに対してデータアクセスを可能にするための手順を確立しているが、そのプロセスは、特に州および地方レベルでは随時である。また、場合によっては企業と提携してデータアクセスを得ることもできますが、これは研究者や企業にとってさまざまな問題を引き起こす可能性があります。