2.3.2.4 дрейфующих

Дрейф населения, дрейф использования и дрейфа система делает его трудно использовать большой источник данных для изучения долгосрочных тенденций.

Одним из больших преимуществ многих крупных источников данных, которые они собирают данные в течение долгого времени. Социологи называют этот вид более времени данных, продольных данных. И, естественно, продольные данные очень важны для изучения изменений. Для того, чтобы надежно измерять изменения, тем не менее, сама система измерения должна быть стабильной. По словам социолога Otis Дадли Дункан, "если вы хотите измерить изменения, не меняют меру" (Fischer 2011) .

К сожалению, во многих системах, особенно больших объемов данных бизнес - системы , которые создают и захватывать цифровые следы-меняются все время, процесс , который я буду называть дрейфом. В частности, эти системы изменяются по трем основным направлениям: дрейф населения (изменение кто их использует), поведенческие дрейф (изменение в том , как люди используют их), и дрейф системы (изменение самой системы). Три источника дрейфа означает, что любой шаблон в цифровых данных трассировки может быть вызвано важным изменением в мире, или это может быть вызвано той или иной форме дрейфа.

Первый источник дрейфовой населения дрейфа в том, кто использует систему, и это изменяет на долгосрочных временных масштабах и коротких временных масштабах. Например, с 2008 по настоящее время средний возраст людей в социальных медиа увеличился. В дополнение к этим долгосрочных тенденций, люди, использующие систему в любой момент времени меняется. Например, во время выборов президента США 2012 года доля твитов о политике , которые были написаны женщинами колебались изо дня в день (Diaz et al. 2016) и (Diaz et al. 2016) . Таким образом, то, что может показаться, что изменение в настроении Twitter-стих фактически может быть просто изменения, которые говорят в любой момент.

В дополнение к изменениям в том, кто использует систему, есть также изменения в том, как используется система. Например, во время Занимайте Gezi Парк протесты в Стамбуле, Турция в 2013 году демонстранты изменили свое использование хэштегов, как протест эволюционировал. Вот как Зейнеп Tufekci (2014) описал дрейф, который она в состоянии обнаружить , потому что она наблюдала за поведением на Twitter и на земле:

"То, что случилось, что как только акции стала доминирующей история, большое количество людей. , , прекратили использование хештегов за исключением того, чтобы привлечь внимание к новому явлению. , .. В то время как протесты продолжались, и даже усилились, что Hashtags утихли. Интервью выявили две причины для этого. Во-первых, когда-то все знали по этой теме, хэштегом был сразу же излишним и расточительно на персонажа ограниченной платформе Twitter. Во-вторых, Hashtags были замечены только полезны для привлечения внимания к той или иной теме, а не говорить об этом ".

Таким образом, исследователи, которые изучали протесты, анализируя твиты с протеста, связанных с Хештеги будет иметь искаженное ощущение того, что происходит из-за этого поведенческого дрейфа. Например, они могут поверить, что обсуждение протеста уменьшилось задолго до того, как на самом деле уменьшилось.

Третий вид дрейфа дрейф системы. В этом случае, это не люди, изменение или их изменение поведения, но сама система меняется. Например, в течение долгого времени или Facebook увеличил лимит на длине обновления статуса. Таким образом, любое продольное исследование обновлений статуса будут уязвимы для артефактов, вызванных этим изменением. Дрейф система тесно связана с проблемой под названием алгоритмическая вмешивающимся, к которому мы сейчас переходим.