3.6.1尋ねる増幅

デジタル・トレースにアンケートをリンクするすべての回で誰もがあなたの質問をするようにすることができます。

サンプル調査とセンサス:頼むは、一般的に2つの主なカテゴリに来ます。あなたは少人数にアクセスするサンプル調査では、、、柔軟なタイムリー、かつ比較的安価であることができます。それらはサンプルに基づいているのでしかし、サンプル調査は、多くの場合、それらの解像度が制限されます。サンプル調査では、特定の地域について、または特定の属性グループへの見積りを行うのは困難です。国勢調査は、他に、集団内の全員にインタビューを試みます。 (彼らは、このような10年ごとのように固定されたスケジュール、上で起こる)、彼らは偉大な解像度を持っているが、それらは一般的に高価であり、焦点の狭い(彼らは唯一の質問の少数を含む)、およびタイムリーではない(Kish 1979)研究者は、サンプル調査とセンサスの最良の特性を組み合わせることができれば今想像。研究者は毎日すべての人にすべての質問をすることができれば想像してみてください。

明らかに、この継続的には、ユビキタス、常時オンの調査社会科学のファンタジーの一種です。しかし、我々が多くの人々からのデジタル・トレースを持つ人々の数が少ないからアンケートの質問を組み合わせることで、これを近似するために始めることができると思われます。私はこのタイプの組み合わせが求め増幅呼び出します。よくやった場合、それは、私たちは(小さい地域のために)更にローカルです推定、(特定の人口統計学のグループの場合)より細かく、かつよりタイムリーに提供する助けることができます。

増幅された提示の一例は、貧しい国での発展を導く助けとなるデータを収集するために望んでいたジョシュアBlumenstockの仕事から来ています。具体的には、Blumenstockは調査の柔軟性と周波数の国勢調査の完全性を組み合わせた富と幸福を測定するためのシステム作りたかった(Blumenstock 2014; Blumenstock, Cadamuro, and On 2015)実際に、私はすでに1章で簡単にBlumenstockの仕事を説明しました。

開始するには、Blumenstockはルワンダの最大の携帯電話会社と提携しました。同社は、開始時刻、継続時間、および発信者と受信機のおおよその地理的な場所として2005年と2009年のログは、各コールやテキストメッセージに関する情報が含まれているから行動をカバーする約1.5百万人の顧客から彼に匿名取引記録を提供しました。私たちは、統計的な問題について話し始める前に、この最初のステップは、最も難しいの一つであることを指摘しておく価値があります。第2章で述べたように、ほとんどのデジタルトレースデータは、研究者にアクセスできません 。そして、多くの企業は、それがプライベートであるため、それらのデータを共有することが正当に躊躇しています。それは、顧客は、おそらく彼らのレコードが共有にされることを研究者バルクと期待していなかったです。この場合、研究者はデータを匿名化するために慎重な手順を取り、彼らの仕事は、サードパーティ(すなわち、それらのIRB)が監督しました。しかし、これらの努力にもかかわらず、これらのデータは、おそらくまだ識別可能であり、彼らはおそらく機密情報含ん(Mayer, Mutchler, and Mitchell 2016; Landau 2016)私は第6章では、これらの倫理的な質問に戻りましょう。

Blumenstockは、富と幸福を測定するに興味を持っていたことを思い出してください。しかし、これらの特性は、コールレコードに直接ではありません。言い換えれば、これらの通話記録は、第2章で詳しく説明したデジタル・トレースの共通の特徴この研究のために不完全である。しかし、通話記録は、おそらく富と幸福に関するいくつかの情報を持っている可能性が高いようです。だから、Blumenstockの質問をする一つの方法は次のようになります。それは、誰かが自分のデジタルトレースデータに基づく調査にどのように応答するかを予測することは可能ですか?そうであれば、少数の人々を尋ねることによって、我々は他の人の答えを推測することができます。

経験的にこれを評価するために、キガリ科学技術研究所からBlumenstockと研究助手は、約千携帯電話の顧客のサンプルと呼ばれます。研究者たちは、「あなたがオーナーとして、参加者にプロジェクトの目標を説明した通話記録へのアンケートの回答をリンクするために彼らの同意を求め、その後、彼らの富と幸福を測定するための一連の質問にそれらを尋ねましたラジオ?」と「あなたは自転車を所有していますか?」(部分的なリストについては、図3.11を参照)。調査のすべての参加者は、財政的に補償されました。

教師付き学習に続いて機能工学:次に、Blumenstockは、データ科学における一般的な2段階の手順を使用していました。まず、 機能エンジニアリング段階で、インタビューされたすべての人のために、Blumenstockは、一人一人についての特性のセットに通話記録を変換しました。データ科学者は、「機能」、これらの特性を呼ぶかもしれないし、社会科学者がそれらを呼び出すことになる」変数を。」たとえば、それぞれの人のために、Blumenstockが活性を有する日間の合計数を計算し、人はと接触していたの異なる人の数、量お金のように放送時間に費やされ、。批判的に、優れた機能工学研究設定の知識が必要です。それは(私たちは国際的に呼び出す人々が裕福であることを期待するかもしれない)国内・国際電話を区別することが重要である場合たとえば、これは機能工学ステップで実行する必要があります。ルワンダのほとんど理解と研究者は、この機能が含まれていない可能性があり、その後、モデルの予測性能が低下します。

次に、 教師付き学習ステップで、Blumenstockは、その機能に基づいて、それぞれの人のための調査の応答を予測する統計モデルを構築しました。この場合、Blumenstockは10分割交差検定とロジスティック回帰を使用したが、彼は他の統計や機械学習の様々なアプローチを使用することもできました。

だから、どれだけそれが動作したのですか? Blumenstockは「?あなたはラジオを所有してください」のような質問を調査への回答を予測することができたと「あなたは自転車を所有していますか?」の通話記録から派生機能を使用していますか?並べ替え。予測の精度は、いくつかの特性(図3.11)のために高かったです。しかし、単純な代替に対する複雑な予測方法を比較することは常に重要です。この場合、単純な代替案は、誰もが、最も一般的な答えを与えることを予測することです。たとえば、97.3パーセントはBlumenstockは、誰もが彼が彼のより複雑な手順(97.6パーセントの精度)の性能に驚くほど似て97.3パーセントの精度を持っていただろうラジオを所有して報告することを予測していたかのように、無線機器を所有していると報告しました。つまり、すべての空想のデータとモデリングは97.6パーセントに97.3パーセントから予測の精度を増加させました。しかし、このような "あなたは自転車を所有していますか?」などの他の質問のために、予測は67.6パーセントに54.4パーセントから改善しました。より一般的には、図3.12に示すいくつかの形質についてBlumenstockは、単純なベースライン予測を行うことを越えてあまり改善されなかったが、それは他の形質のためにいくつかの改善がありました。

図3.11:通話記録で訓練を受けた統計モデルの予測精度。 Blumenstock(2014)の表2の結果。

図3.11:通話記録で訓練を受けた統計モデルの予測精度。表2の結果からBlumenstock (2014)

図3.12:シンプルなベースライン予測に通話記録で訓練を受けた統計モデルの予測精度の比較。点は若干の重複を避けるために、ジッタされます。正確な値についてはBlumenstock(2014)の表2を参照してください。

図3.12:シンプルなベースライン予測に通話記録で訓練を受けた統計モデルの予測精度の比較。点は若干の重複を避けるために、ジッタされます。表2参照Blumenstock (2014)正確な値のため。

この時点では、これらの結果は、わずか1年後に、Blumenstockと2人の同僚・ガブリエルCadamuroとロバート・オン・公開・サイエンスの論文実質的に良好な結果と少し失望しているが、ことを考えるかもしれない(Blumenstock, Cadamuro, and On 2015) 。改善のための2つの主要な技術的な理由があった:1)彼らはより洗練された方法(すなわち、エンジニアリング、より洗練された機械学習モデルを搭載した新しいアプローチ)を使用し、2)ではなく、個々のアンケートの質問への回答を推測しようとするよりも、(例えば、 「あなたはラジオを所有していますか?」)、それらが複合富のインデックスを推測しようとしました。

Blumenstockらは2つの方法で彼らのアプローチの性能を実証しました。まず、彼らは、試料中の人々のために、彼らは通話記録(図3.14)から彼らの富を予測するのはかなり良い仕事をすることができることを見出しました。第二に、そしてこれまで以上に重要なのは、Blumenstockらは、それらの手順はルワンダの富の地理的分布の高品質推定値を生成することができることを示しました。具体的には、彼らは、通話記録のすべての150万人の富を予測するために、約1,000人の彼らのサンプルに訓練された彼らの機械学習モデルを使用しました。また、通話データに埋め込まれた地理空間データ(コールデータは、各コールのために最寄りのセルタワーの場所が含まれていることを思い出して)で、研究者は一人一人の居住のおおよその場所を推定することができました。一緒にこれらの2つの推定値を入れて、研究は極めて微細な空間単位で加入者の富の地理的分布の推定値を生成しました。例えば、それらは、ルワンダの2148細胞(国内の最小行政単位)のそれぞれに平均富を推定することができます。これらの予測富値は、彼らがチェックするのは困難であったので、粒状でした。だから、研究者は、ルワンダの30地区の平均富の推定値を生成するために、その結​​果を集約しました。これらの地区レベルの見積もりを強く金本位伝統的な調査からの推定値に関連していた、ルワンダの人口保健調査(図3.14)。 2のソースからの推定値が類似していたものの、Blumenstockや同僚からの推定値は約50倍安いと10倍高速(中コストは変動費の面で測定した場合)となりました。このコストの劇的な減少は、というよりは、数年ごとに-として実行されていることが、調査の大きなデジタルトレースデータと組み合わせた小さな調査のハイブリッドは毎月実行することができた人口保健のための標準であることを意味します。

図3.13:Blumenstock、Cadamuro、およびオン(2015)の模式図。電話会社から呼び出したデータは、それぞれの人のための1つの行とそれぞれの特徴(すなわち、変数)のための1つの列を持つ行列に変換しました。次に、研究者は、特徴マトリクスによって人からアンケ​​ートの回答を予測するために、教師付き学習モデルを構築しました。そして、教師付き学習モデルは皆のためのアンケートの回答を転嫁するために使用されました。本質的には、研究者は約100万人の富を転嫁するために、約千人の回答を使用していました。また、研究者は呼び出しの位置に基づいて、すべての150万人のための居住のおおよその場所を推定しました。これらの2つの推定値を組み合わせ-たときの推定富と居住-結果の推定場所は、人口保健調査、ゴールドスタンダード伝統的な調査(図3.14)からの推定値と同様でした。

図3.13:の概略Blumenstock, Cadamuro, and On (2015)電話会社から呼び出したデータには、各機能(すなわち、変数)のために一人一人のための1行1列に行列に変換しました。次に、研究者は、特徴マトリクスによって人からアンケ​​ートの回答を予測するために、教師付き学習モデルを構築しました。そして、教師付き学習モデルは皆のためのアンケートの回答を転嫁するために使用されました。本質的には、研究者は約100万人の富を転嫁するために、約千人の回答を使用していました。また、研究者は呼び出しの位置に基づいて、すべての150万人のための居住のおおよその場所を推定しました。これらの2つの推定値を組み合わせ-たときの推定富と居住-結果の推定場所は、人口保健調査、ゴールドスタンダード伝統的な調査(図3.14)からの推定値と同様でした。

図3.14:Blumenstock、Cadamuro、およびオン(2015)からの結果。個人レベルでは、研究者は彼らの通話記録から誰かの富を予測で合理的な仕事をすることができました。地区レベルの富 - 富と居住-結果の代わりの個々のレベルの推定値に基づいていたの推定値は人口保健調査、ゴールドスタンダード伝統的な調査結果と同様でした。

図3.14:結果からBlumenstock, Cadamuro, and On (2015)個人レベルでは、研究者は彼らの通話記録から誰かの富を予測で合理的な仕事をすることができました。地区レベルの富 - 富と居住-結果の代わりの個々のレベルの推定値に基づいていたの推定値は人口保健調査、ゴールドスタンダード伝統的な調査結果と同様でした。

結論として、Blumenstockのは、金標準調査の見積もりと同等の推定値を生成するためにデジタルトレースデータとのアプローチを組み合わせた調査データを求めて増幅しました。この特定の例ではまた、増幅尋ねると、従来の調査方法との間にトレードオフのいくつかを明確にしています。まず、増幅尋ねる推定値は、よりタイムリーに、実質的に安く、そしてより多くの粒状でした。しかし、一方で、この時点では、増幅された提示のこの種のための強力な理論的根拠はありません。ときにそれはないだろう、それは動作しますときには、この一例では表示されませんされています。さらに、増幅の提示アプローチはまだその見積りの不確実性を定量化するための良い方法はありません。しかし、増幅された提示は、統計モデルに基づく事後成層における3大面積への深いコネクションがあり(Little 1993)帰属(Rubin 2004)および小面積推定(Rao and Molina 2015) -と私はその進展が期待します迅速です。

増幅された提示はあなたの特定の状況に合わせて調整することができる基本的なレシピに従っています。 2成分と2つのステップがあります。 2成分)は広いが、薄くなっているデジタルトレースデータセット(それはそれはあなたがそれぞれの人物についての必要な情報を多くの人々を持っているではなく、ある)と狭いが、厚さである2)調査(つまり、それが持っている1ですごく少数の人だけが、それはあなたがそれらの人々についての必要な情報)を有しています。次に、2つのステップがあります。まず、アンケートの回答を予測するために、デジタルトレースデータを使用して機械学習モデルを構築し、両方のデータソースの人々のために。次に、デジタルトレースデータの皆様のアンケート回答を転嫁するために、その機械学習モデルを使用します。あなたはたくさんの人に聞いてみたいいくつかの疑問がある場合はこのように、彼らの答えを予測するために使用されるかもしれない人々からのデジタルトレースデータを検索します。

始まりは終わりではない。また、第三の時代への第2の時代からの移行に関する重要な教訓を示している問題でBlumenstockの第一および第二の試行を比較する研究を調査するために近づきます。それは、何度もあり、最初のアプローチが最善ではありませんが、研究者は、作業を継続した場合、物事が良くなることができます。より一般的には、デジタル時代の社会調査への新しいアプローチを評価するとき、二つの異なる評価をすることが重要である:1)どれだけ今、この作業を行い、2)どれだけあなたは、これはデータ風景として、将来的に働くかもしれないと思います変更や研究者としては問題にもっと注意を払います。研究者は、(研究のこの特定の部分がどのように良いです)、評価の第一種を作るために訓練されている、が、第二には、多くの場合より重要です。