2.4.1数えるもの

あなたは良いデータとよく質問を組み合わせた場合の単純なカウントは興味深いものになることができます。

洗練された言葉で表現されていますが、多くの社会調査は本当に物事を数えています。大きなデータの時代には、研究者の数はこれまで以上に多くなる可能性がありますが、それは彼らが無計画にカウントし始めることを意味するものではありません。代わりに、研究者は次のように質問する必要があります。これは完全に主観的な問題のように見えるかもしれませんが、いくつかの一般的なパターンがあります。

学生はしばしば、数え切れないほどのものを数えるつもりです。たとえば、多くの人が移民を研究し、多くの人が双子を研究していると言われるかもしれませんが、移住者の双子を研究した人はいません。私の経験では、私が不在動機づけをするこの戦略は、通常、良い研究につながるわけではありません。不在によるモチベーションは、そこに穴があると言うようなものです。私はそれを埋めるために非常に努力するつもりです。しかし、すべての穴を埋める必要はありません。

不在で動機づけするのではなく、 重要で 興味深い (または理想的には両方の)研究課題を探す方が良い戦略だと思う。これらの用語はどちらも定義が難しいですが、重要な研究について考える方法の1つは、政策立案者が重要な決定に影響を与えるか、または重要な影響を与えることです。たとえば、失業率を測定することは重要です。なぜなら、失業率は政策決定を促す経済指標となるからです。一般的に、私は研究者が何が重要かをかなりよく知っていると思います。そこで、このセクションの残りでは、カウントが面白いと思う2つの例を提供します。どちらの場合も、研究者は無計画にカウントしていませんでした。むしろ、社会システムの仕組みに関するより一般的な考え方への重要な洞察を明らかにした非常に特殊な設定を数えていました。言い換えれば、これらの特定の集計練習を興味深いものにするものは、データそのものではなく、より一般的な考えから来ています。

単純な計数力の一例は、ニューヨーク市のタクシー運転手の行動に関するHenry Farber (2015)研究から来ている。このグループは本質的に興味深いものではないかもしれませんが、労働経済学における2つの競合する理論をテストするための戦略的研究サイトです。ファーバーの研究の目的のために、タクシー運転手の職場環境には2つの重要な特徴があります:(1)天候のような要因に基づいて毎日の賃金が変動し、(2)仕事は彼らの決定に基づいて毎日変動する可能性があります。これらの特徴は、時間当たりの賃金と労働時間との関係について興味深い質問につながる。経済学の新古典派モデルは、タクシー運転手がより高い時間当たりの賃金を支払っている日に、より多くの仕事をすると予測しています。あるいは、行動経済学からのモデルは正反対を正確に予測する。運転手が特定の収入目標(1日あたり100ドル)を設定し、その目標が達成されるまで働くと、運転者はより多くの収入を得る日数を短縮します。例えば、あなたが目標とする人であれば、良い一日(25ドル/時間)で4時間、悪い日に5時間(1時間20ドル)で作業を終える可能性があります。したがって、運転者は、より高い時間当たり賃金(新古典派モデルによって予測される)または時間当たりの賃金の低い日(行動経済モデルによって予測される)でより多くの時間を稼働させるか?

この質問に答えるために、Farberは2009年から2013年までニューヨーク市のタクシーでのタクシー旅行に関するデータを入手しました。データは現在一般に公開されています。開始時刻、開始地点、終了時刻、終了地点、運賃、およびチップ(チップがクレジットカードで支払われた場合):これらのデータは都市でタクシーを必要とする電子メーターによって収集され、 。このタクシーメーターのデータを用いて、Farberは、新古典理論と一致して、賃金が高い日に多くのドライバーがより多く働くことを発見しました。

この主な発見に加えて、ファーバーは異質性とダイナミクスのより良い理解のためにデータのサイズを使用することができました。彼は、時間の経過とともに、新しいドライバーは、高賃金の日に徐々に働くことを徐々に学んでいることを発見しました(例えば、新古典モデルが予測するように行動することを学びます)。ターゲット獲得者のように行動する新しいドライバーは、タクシードライバーではなくなる可能性が高くなります。現在のドライバの動作を説明するのに役立つこれらのより微妙な発見は、データセットのサイズのためにのみ可能でした。彼らは短期間に少数のタクシー運転手からのペーパー・シートを使用した以前の研究では検出できなかった(Camerer et al. 1997)

Farberの調査は、大規模なデータソースを使用した研究の最良のシナリオに近いものでした。都市によって収集されたデータがFarberが収集するデータにかなり近くなっていたからです(1つの違いはFarberが合計賃金 - 運賃とヒント - しかし、都市データにはクレジットカードで支払われたヒントしか含まれていませんでした)。しかし、データだけでは十分ではありませんでした。ファーバーの研究の鍵は、データに興味深い質問を投げかけていました。この質問は、この特定の設定以外の大きな意味を持っています。

第2の例は、ゲイリー・キング、ジェニファー・パン、モリー・ロバーツ(2013) Molly Roberts (2013)による中国政府のオンライン検閲に関する研究から来ている。しかしこの場合、研究者は大きなデータを収集しなければならず、データが不完全であるという事実に対処しなければならなかった。

キングと同僚は、中国のソーシャルメディアの記事が何万人もの人々を含むと考えられている巨大な国家機関によって検閲されたという事実によって動機づけられました。しかし、研究者や市民は、これらの検閲者がどのようなコンテンツを削除すべきかを決める意識はほとんどない。中国の奨学生は、実際にどの種類の投稿が削除される可能性が高いかについて、相反する予想があります。一部の人は、検閲官は国家に批判的な投稿に焦点を当てていると考えている人もいれば、抗議などの集団行動を促す記事に焦点を当てていると思う人もいます。これらの期待のうちどれが正しいかを明らかにすることは、研究者が中国や検閲に携わる他の権威主義的な政府をどのように理解するかに影響します。したがって、キングとその同僚は、公開された投稿とその後削除された投稿を、公開されていて削除されていない投稿と比較したいと考えました。

これらの投稿を収集する別のページレイアウト発見関連のポストで1,000人以上の中国のソーシャルメディアのウェブサイト-それぞれをクロールし、その後削除されたかを確認するには、これらの記事を再訪の驚くべきエンジニアリング偉業を関与しました。大規模なウェブクローリングに関連した通常の工学的問題に加えて、このプロジェクトは、多くの検閲ポストが24時間未満で降ろされているので、それは非常に高速であるために必要な追加の課題がありました。つまり、遅いクローラは検閲された記事の多くを逃すことになります。また、クローラは、ソーシャルメディアのウェブサイトが調査に応じて、そのポリシーを変更それ以外のアクセスをブロックしたり、ないような検出を回避しながら、このすべてのデータ収集をしなければなりませんでした。

この大規模なエンジニアリング作業が完了した時点で、Kingとその同僚は、それぞれが想定される感度のレベルを持つ、85の異なる予め指定されたトピックについて約1100万の記事を取得しました。例えば、高感度の話題は、反対派アーティストのAi Weiweiである。中感度の話題は中国通貨の上昇と切り下げであり、感度の低い話題はワールドカップである。これら1100万の郵便のうち、約200万が検閲されました。多少驚いたことに、Kingとその同僚は、非常に敏感なトピックの投稿は、中感度と低感度のトピックの投稿よりもわずかに頻繁に検閲されたことに気付きました。言い換えれば、中国の検閲官は、Ai Weiweiにワールドカップを言及するポストとして言及するポストを検閲する可能性が高い。これらの発見は、政府が機密トピックに関するすべての記事を検閲するという考え方を支持していない。

しかし、この単純な検閲率の計算は、誤解を招く可能性があります。例えば、政府はアイウェイウェイを支持するポストを検閲するかもしれないが、彼に批判的な投稿を残す。ポストをより慎重に区別するために、研究者は各ポストの感情を測定する必要がありました。残念なことに、多くの作業にもかかわらず、既存の辞書を使用した感情検出の完全自動化された方法は、多くの状況でそれほど良好ではありません(2.3.9節で説明された2001年9月11日の感情的なタイムラインを作成する問題を考えてください)。したがって、キングと同僚は、彼らが(1)国家に批判的であるか、(2)国家を支持しているか、または(3)事件に関する無関係または事実上の報告であるかどうかについて1100万のソーシャルメディア投稿にラベルを付ける方法が必要でした。これは、大規模な仕事のように聞こえるが、彼らはデータ科学における共通だが、社会科学では比較的まれであり、強力なトリックを使用してそれを解決: 学習を監督しました 。図2.5を参照してください。

まず、一般的に前処理と呼ばれるステップで、ソーシャルメディアの投稿を文書用語行列に変換しました。ここで、各文書に1つの行があり、特定の単語(抗議や交通など) 。次に、研究助手のグループが手紙のサンプルの感想を手書きしました。その後、この手書きデータを使用して、その特性に基づいてポストの感想を推論できる機械学習モデルを作成しました。最後に、彼らはこのモデルを使用して1100万の投稿すべての感情を推定しました。

このように、手作業で1100万ポストを読み書きするのではなく、ロジスティックには不可能だった - キングとその同僚は手作業で少数の投稿にラベルを付け、すべての投稿の感情を推定するために教師あり学習を使用した。この分析を完了した後、彼らは、幾分驚くべきことに、投稿が削除される確率は、それが国家に批判的であったのか、それとも国家を支持しているのかとは無関係であると結論づけることができた。

図2.5:King、Pan、およびRoberts(2013)が1100万の中国のソーシャルメディア記事の感情を推定するために使用した手順の簡略図。まず、前処理段階で、研究者はソーシャルメディアの投稿を文書用語行列に変換しました(詳細はGrimmer and Stewart(2013)を参照)。第二に、小さなサンプルの感想を手作業でコーディングしました。第3に、彼らは、教師の学習モデルを訓練して、ポストの感情を分類した。第4に、教師付き学習モデルを使用して、すべての投稿の感情を推定しました。より詳細な説明については、King、Pan、and Roberts(2013)、付録Bを参照のこと。

図2.5: King, Pan, and Roberts (2013)が1100万の中国のソーシャルメディア記事の感情を推定するために使用した手順の簡略図。まず、 前処理段階で、研究者はソーシャルメディアの投稿を文書用語行列に変換しました(詳細はGrimmer and Stewart (2013)を参照)。第二に、小さなサンプルの感想を手作業でコーディングしました。第3に、彼らは、教師の学習モデルを訓練して、ポストの感情を分類した。第4に、教師付き学習モデルを使用して、すべての投稿の感情を推定しました。より詳細な説明についてはKing, Pan, and Roberts (2013) 、付録Bを参照のこと。

結局のところ、キングと同僚は、ポルノグラフィー、検閲の批判、集団的活動の可能性を持つもの(すなわち、大規模な抗議につながる可能性がある)の3種類しか定期的に検閲されていないことを発見した。削除された膨大な数の投稿と削除されなかった投稿を観察することによって、キングとその同僚は、監視とカウントだけで検閲がどのように機能するかを知ることができました。さらに、この本の中で出てくるテーマをあげてみましょう。いくつかの結果を手書きで表記し、残りのラベルを付ける機械学習モデルを構築する、教師付き学習アプローチは、デジタル時代のソーシャルリサーチでは非常に一般的です。第3章(質問する)と第5章(大量のコラボレーションを作成する)の図2.5と非常によく似た写真が表示されます。これは複数の章に現れるいくつかのアイデアの1つです。

ニューヨークのタクシー運転手の働き方や中国政府のソーシャルメディアの検閲行為など、これらの例は、大きなデータソースを比較的簡単に数えると、興味深い重要な研究につながる場合があることが示されています。しかしどちらの場合でも、研究者は大きなデータソースに興味深い質問を出す必要がありました。データ自体では十分ではありませんでした。