2.3.2.4漂流

人口ドリフト、利用ドリフト、およびシステム・ドリフトは難しい長期的な傾向を研究するためにビッグデータ・ソースを使用することを可能にします。

多くの大きいデータ・ソースの大きな利点の1つは、時間をかけてデータを収集することです。社会科学者は、経時データ、縦この種のデータを呼び出します。そして、当然、縦方向のデータが変化を研究するために非常に重要です。確実な変化を測定するために、しかし、測定システム自体が安定でなければなりません。社会学者オーティスダドリーダンカンの言葉で、「あなたが変化を測定する場合、測定値を変更しないでください」 (Fischer 2011)

残念ながら、多くのビッグデータ・システム-特にビジネス・システムの作成 ​​とデジタル・トレースが-されているすべての時間を変更キャプチャ、私はドリフトと呼ぶことにしますプロセス。 人口ドリフト (それらを使用している方の変化)、 行動のドリフト (人々がそれらを使用している方法の変化)、およびシステム・ドリフト (システム自体の変化):具体的には、これらのシステムは、主に次の3通りの方法で変更されます。ドリフトの3源は、デジタルトレースデータ内の任意のパターンは、世界における重要な変化が原因である可能性があり、あるいはそれは、ドリフトのいくつかのフォームが原因で発生することがあることを意味します。

ドリフト集団の最初のソースシステムを使用している人ドリフトは、であり、これは長い時間スケールと短時間スケールで変化します。例えば、2008年からソーシャルメディア上の人の平均年齢が増加している提示します。これらの長期的な傾向に加えて、任意の時点でシステムを使用して、人が変化します。例えば、2012年の米国大統領選挙の際に女性によって書かれた政治についてツイートの割合は日々変動(Diaz et al. 2016)したがって、どのような実際には任意の時点で話をしているの変化かもしれないTwitterの詩の気分の変化であるように見えるかもしれません。

システムを使用しての変化に加えて、システムが使用される方法の変化もあります。抗議の進化として例えば、イスタンブール、トルコでゲズィ公園の抗議を占拠中に2013年のデモ隊は、ハッシュタグの使用を変更しました。ここでゼイネップTufekci方法です(2014) 、彼女は彼女がTwitterでと地面に行動を観察したために検出することができたドリフトを、説明しました:

「何が起こったのか、すぐに抗議として支配的な物語、多数の人々になったということでした。 。 。新しい現象に注意を引くために除いてハッシュタグを使用して停止。 。抗議行動を続け、さらに激化しているが..、ハッシュタグはダウン死亡しました。インタビューは、これには2つの理由を明らかにしました。誰もが話題を知っていたら、まず、ハッシュタグは一度に余分な無駄な文字が限定されたTwitterのプラットフォーム上でした。第二に、ハッシュタグはないそれについて話のために、特定のトピックに注意を引き付けるためだけとして有用で見られました。」

このように、抗議関連のハッシュタグ付きツイートを分析することで抗議を研究していた研究者は、このための行動ドリフトの何が起こっているかの歪んだ感覚を持っているでしょう。例えば、彼らは、それが実際に減少する前に抗議の議論が長い減少していることを信じているかもしれません。

ドリフトの第三種は、システムのドリフトです。この場合には、変更人またはそれらの行動変化ではなく、システム自体が変化します。例えば、時間をかけてFacebookはステータス更新の長さの制限を増加しています。このように、ステータスの更新のいずれかの縦断的研究では、この変化によるアーチファクトに対して脆弱になります。システムドリフトは密接に私たちが今ターンにアルゴリズム的交絡と呼ばれる問題に関連しています。