2.3.7 Dryfowanie

Zjawisko dryfu populacji, dryfu użytkowania i dryfowania systemu utrudnia wykorzystanie dużych źródeł danych do badania długoterminowych trendów.

Jedną z wielkich zalet wielu dużych źródeł danych jest to, że gromadzą one dane w czasie. Socjologowie nazywają tego rodzaju na czas danych danych podłużnej. Oczywiście, dane dotyczące zmian w czasie są bardzo ważne dla badania zmian. Aby jednak niezawodnie zmierzyć zmianę, sam system pomiarowy musi być stabilny. Według słów socjologa Otisa Dudleya Duncana "jeśli chcesz zmierzyć zmianę, nie zmieniaj miary" (Fischer 2011) .

Niestety, wiele dużych systemów danych - zwłaszcza systemów biznesowych - cały czas się zmienia, proces ten nazywam dryfowaniem . W szczególności systemy te zmieniają się na trzy główne sposoby: dryf populacyjny (zmiana, kto z nich korzysta), dryf behawioralny (zmiana sposobu, w jaki ludzie używają go) i dryf systemu (zmiana w samym systemie). Trzy źródła dryfu oznaczają, że każdy wzorzec w dużym źródle danych może być spowodowany ważną zmianą na świecie lub może być spowodowany jakąś formą dryfu.

Pierwsze źródło dryftów populacyjnych jest spowodowane zmianami w tym, kto używa systemu, a zmiany te mogą wystąpić zarówno w krótkich, jak i długich ramach czasowych. Na przykład podczas wyborów prezydenckich w USA w 2012 roku odsetek tweetów o polityce pisanych przez kobiety wahał się z dnia na dzień (Diaz et al. 2016) . Tak więc to, co wydaje się być zmianą nastroju Twitter-verse, może być po prostu zmianą w tym, kto mówi w każdej chwili. Oprócz tych krótkookresowych fluktuacji zaobserwowano również długoterminową tendencję niektórych grup demograficznych przyjmujących i rezygnujących z Twittera.

Oprócz zmian w tym, kto używa systemu, są również zmiany w sposobie jego używania, które nazywam dryfem behawioralnym. Na przykład podczas protestów Occupy Gezi w 2013 r. Protestujący zmienili użycie hashtagów w miarę rozwoju protestu. Oto jak Zeynep Tufekci (2014) opisał dryf behawioralny, który była w stanie wykryć, ponieważ obserwowała zachowania na Twitterze i osobiście:

"Stało się tak, że gdy protest stał się dominującą historią, duża liczba ludzi ... przestała używać hashtagów, z wyjątkiem zwrócenia uwagi na nowe zjawisko ... Podczas gdy protesty trwały, a nawet nasilały się, hashtagi ustały. Wywiady ujawniły dwa powody tego. Po pierwsze, gdy wszyscy już znali temat, hashtag był zbyteczny i marnotrawny na ograniczonej postaci platformie Twitter. Po drugie, hashtagi były postrzegane tylko jako użyteczne do przyciągnięcia uwagi do konkretnego tematu, a nie do mówienia o nim. "

W ten sposób naukowcy, którzy badali protesty analizując tweety związane z hashtagami protestu miałoby wypaczony sens tego, co się dzieje z powodu tego zachowania dryfu. Na przykład, mogą sądzić, że dyskusja na temat protestów spadły na długo zanim rzeczywiście spadły.

Trzecim rodzajem dryfu jest dryf systemu. W tym przypadku nie zmieniają się ludzie ani ich zachowanie się zmienia, ale sam system się zmienia. Na przykład, z czasem Facebook zwiększył limit długości aktualizacji statusu. W związku z tym wszelkie długoterminowe badania aktualizacji statusu będą narażone na artefakty spowodowane tą zmianą. Dryf systemu jest ściśle związany z problemem zwanym algorytmicznym myleniem, który omówię w sekcji 2.3.8.

Podsumowując, wiele dużych źródeł danych ulega dryfowaniu ze względu na zmiany w zakresie tego, kto ich używa, w jaki sposób są one używane oraz w jaki sposób działają. Te źródła zmian są czasami interesującymi pytaniami badawczymi, ale zmiany te komplikują zdolność dużych źródeł danych do śledzenia długoterminowych zmian w czasie.