2.3.7 Лебдат

Намалувањето на населението, користењето на летот и отстранувањето на системот го отежнуваат користењето на големи извори на податоци за проучување на долгорочните трендови.

Една од големите предности на многу големи извори на податоци е тоа што со текот на времето собирале податоци. Социјалистичките научници го нарекуваат овој тип на податоци со подолготрајни податоци . И, природно, надолжните податоци се многу важни за проучување на промените. Меѓутоа, со цел сигурно да се измерат промените, самиот систем за мерење мора да биде стабилен. Според зборовите на социологот Отис Дадли Данкан, "ако сакате да ја измерите промената, не ја менувајте мерката" (Fischer 2011) .

За жал, многу големи системи за податоци - особено деловните системи - постојано се менуваат, процес што ќе го наречам лебдат . Особено, овие системи се менуваат на три главни начини: популација лебдат (промена во тоа кој ги користи), однесувањето лебдат (промена во начинот на кој луѓето ги користат), и системски лебдат (промена во самиот систем). Трите извори на лебдат значи дека секој модел во голем извор на податоци може да биде предизвикан од важна промена во светот, или може да биде предизвикана од некоја форма на лебдат.

Првиот извор на лебдат-популација лебди е предизвикан од промените во тоа кој го користи системот, и овие промени може да се случат и на кратки и на долги временски рокови. На пример, за време на американските претседателски избори во 2012 година, процентот на твитови за политиките што ги напишале жените варира од ден на ден (Diaz et al. 2016) . Така, она што може да изгледа како промена во расположението на Твитер-стихот, всушност, би можело да биде само промена во тоа кој зборува во секој момент. Покрај овие краткорочни флуктуации, исто така има долгорочен тренд на одредени демографски групи кои го прифаќаат и напуштаат Твитер.

Покрај промените во тоа кој користи систем, има и промени во начинот на користење на системот, што го нарекувам одлив на однесувањето. На пример, за време на протестите во Окупи Гези во Турција во 2013 година, демонстрантите ја промениа нивната употреба на хаштагови додека протестот еволуираше. Еве како Zeynep Tufekci (2014) опиша бихејвиоралниот нанос, кој таа беше во можност да ја открие, бидејќи таа го следеше однесувањето на Твитер и лично:

"Она што се случи беше дека веднаш штом протестот станал доминантна приказна, голем број луѓе ... престанаа да ги користат хаштагот, освен да привлечат внимание кон нов феномен ... Додека протестите продолжија, па дури и се интензивираа, хаштагот замре. Интервјуа откриле две причини за ова. Прво, откако сите ја знаат темата, хаштагот беше одеднаш непотребен и непотребно на платформата со ограничени ликови. Второ, хаштагови се гледаат само како корисни за привлекување внимание кон одредена тема, а не за разговор за тоа. "

Така, истражувачи, кои биле проучување на протести со анализа твитови со протестите поврзани со хаштагови ќе имаат погрешна смисла на она што се случува затоа што на овој однесувањето лебдат. На пример, тие би можеле да веруваат дека дискусијата на протестот намали долго пред тоа всушност се намали.

Третиот вид лебдат е системски лебдат. Во овој случај, луѓето не се менуваат или нивното однесување се менува, но самиот систем се менува. На пример, со текот на времето Фејсбук го зголеми ограничувањето на должината на статусот на ажурирањата. Така, секоја лонгитудинална студија за ажурирање на статусот ќе биде подложна на артефакти предизвикани од оваа промена. Системски лебдат е тесно поврзан со проблем наречен алгоритамски конфузија, кој ќе го покривам во дел 2.3.8.

Да се ​​заклучи, многу големи извори на податоци се одвиваат поради промени во тоа кој ги користи, во начинот на кој тие се користат и во начинот на функционирање на системите. Овие извори на промена се понекогаш интересни истражувачки прашања, но овие промени ја комплицираат способноста на големите извори на податоци да ги следат долгорочните промени со текот на времето.