2.3.2.2アクセス不可

企業や政府が保持しているデータは、研究者がアクセスするのは困難です。

2014年5月には、米国の国家安全保障アジェンダは、インテリジェンスコミュニティ全国総合サイバーセキュリティ・イニシアティブデータセンター扱いにくい名前を持っている農村部のユタ州のデータセンターを開設しました。しかし、ユタ州データセンターとして知られるようになったこのデータセンターは、驚異的な能力を有することが報告されています。一つの報告書では、ユタ州のデータセンターは、民間の電子メール、携帯電話の通話、およびGoogle検索だけでなく、個人データトレイル-駐車領収書のすべての種類の完全な内容」を含む通信のすべての形態を保存し、処理することが可能であると主張している旅程、書店での購入、およびその他のデジタル`ポケットごみ」」 (Bamford 2012)より後述するビッグデータに捕捉された情報、の多くの敏感な性質について調達の懸念に加えて、ユタ州のデータセンターは、研究者にアクセスできない豊富なデータソースの極端な例です。より一般的には、研究者に有用であろうビッグデータの多くの情報源は、政府(例えば、税データ、教育データ)や企業(例えば、クエリエンジンや通話のメタデータを検索する)によって制御され、制限されています。したがって、これらのデータは、大学の研究者にすぐに利用できなくなり、ほとんどはあっても、政府や企業の研究者に利用できなくなります。

私の経験では、大学で基づいて多くの研究者は、このアクセ​​ス不能のソースを誤解します。企業や政府の人々は、愚かな怠惰、または思いやりあるため、これらのデータにアクセスできなくはありません。むしろ、深刻な法的、技術的、ビジネス、およびデータアクセスを防ぐ倫理的な障壁があります。たとえば、ウェブサイトのためのいくつかの用語のサービス契約はデータのみが、従業員が使用するか、サービスを改善することができます。だから、データ共有の特定の形態は、顧客からの正当な訴訟に企業を公開することができます。共有データに関わる企業に対する実質的なビジネスリスクもあります。個人の検索データが誤って、大学の研究プロジェクトの一環としてGoogleから漏れ出た場合、国民が応答するか想像してみてください。このようなデータ侵害は、極端な場合、あっても会社のために実存危険かもしれません。だから、Googleが最も大きな非常にリスク回避の研究者との間でデータの共有について企業が-です。

実際には、大量のデータへのアクセスを提供する立場にあるほとんどの人は、アブドゥルチョードリの物語を知っています。彼はAOLの研究の頭部があったときに2006年に、彼は意図的に彼は研究コミュニティへ65万AOLユーザから検索クエリを匿名と思っていたものをリリースしました。私の知る限り、チョードリー氏とAOLの研究者が善意を持っていたし、彼らはデータを匿名化していたと思いました。しかし、彼らは間違っていました。これは、迅速にデータを研究者が考えたとして、匿名ではなかったことを発見し、 ニューヨークタイムズからの記者は、簡単にデータセット内の人々を識別することができたました(Barbaro and Zeller Jr 2006)これらの問題が発見された後、チョードリー氏は、AOLのウェブサイトからデータを削除したが、それは遅すぎました。データは他のウェブサイトに転載されていた、とあなたはこの本を読んでいるとき、それはおそらく、まだ利用できるようになります。研究コミュニティとの間でデータを共有する彼の試みのため、チョードリー氏は解雇された、およびAOLの最高技術責任者(CTO)は辞任(Hafner 2006) 。この例が示すように、内部のデータアクセスを容易にするために、企業の特定の個人のための利点はかなり小さく、最悪のシナリオがひどいです。

研究は、しかし、一般大衆にアクセスできないデータへのアクセスを得ることができます。政府は、研究者がアクセスのために適用するために従うことができ、およびこの章の後のショーの例のように、研究者は時折企業データへのアクセスを得ることができる手順を持っています。例えば、 Einav et al. (2015)オンラインオークションからのデジタル・トレースを研究するためのeBayの研究者と提携しました。 、研究者の関心、研究者の能力:私は後の章(セクション2.4.3.2)で、このコラボレーションから来た研究について詳しく説明しますが、それは私が成功したパートナーシップで見るすべての成分4を持っていたので、私は今それを言及します企業の関心、および会社の能力。言い換えれば、Einavや同僚に興味とオンラインオークションを勉強することができました。そして、イーベイでもありました。しかし、私は研究者や企業のいずれかがこれらの成分の一つを欠いていたため、多くの可能なコラボレーションが失敗見てきました。

あなたがビジネスとのパートナーシップを開発することができても、しかし、あなたのためにいくつかの欠点があります。まず、あなたは可能性が高いとのデータと尋ねることができる質問が制限されます。企業は、彼らが悪い見えるようにすることができ、研究を可能にするためにはほとんどありません。第二に、あなたはおそらく、他の研究者が、あなたの結果を確認し、拡張することはできないことを意味し、他の研究者とデータを共有することができません。さらに、これらのパートナーシップは、人々があなたの結果はあなたのパートナーシップの影響を受けていたことを考えるかもしれない利益相反の少なくとも外観を作成することができます。これらの欠点のすべてに対処することができますが、誰にでもアクセス可能でないデータでの作業は五分五分とマイナス面の両方を持っていたことを明確にしておくことが重要です。

要約すると、ビッグデータの多くは、研究者にアクセスできません。そこにデータアクセスを防止するため、深刻な、法的、技術、ビジネス、および倫理的な障壁があり、これらの障壁は離れて行くことはありません。各国政府は、一般に、データのアクセスを可能にするための手順を確立しているが、プロセスは、州および地方レベルでのよりアドホックすることができます。また、いくつかのケースでは、研究者が企業とパートナーは、データへのアクセスを取得することができますが、これは研究者のためのさまざまな問題を作成することができます。