2.3.7 Driften

Bevolkingsdrift, gebruiksverloop en systeemafwijking maken het moeilijk om big data-bronnen te gebruiken om langetermijntrends te bestuderen.

Een van de grote voordelen van veel big data-bronnen is dat ze gegevens verzamelen in de loop van de tijd. Sociale wetenschappers noemen dit soort van over-time data longitudinale data . En natuurlijk zijn longitudinale gegevens erg belangrijk voor het bestuderen van verandering. Om echter verandering betrouwbaar te kunnen meten, moet het meetsysteem zelf stabiel zijn. In de woorden van socioloog Otis Dudley Duncan: "als je de verandering wilt meten, verander dan niet de maatregel" (Fischer 2011) .

Helaas veranderen veel big data-systemen, met name bedrijfssystemen, voortdurend, een proces dat ik drift zal noemen. In het bijzonder veranderen deze systemen op drie manieren: populatiedrift (verandering in wie ze gebruikt), gedragsverandering (verandering in hoe mensen ze gebruiken) en systeemafwijking (verandering in het systeem zelf). De drie driftbronnen betekenen dat elk patroon in een grote gegevensbron kan worden veroorzaakt door een belangrijke verandering in de wereld, of dat het kan worden veroorzaakt door een of andere vorm van drift.

De eerste oorzaak van driftpopulatiedrift wordt veroorzaakt door wijzigingen in wie het systeem gebruikt en deze wijzigingen kunnen zowel op korte als op lange tijdschalen plaatsvinden. Tijdens de Amerikaanse presidentsverkiezingen van 2012 schommelde bijvoorbeeld het aandeel tweets over de politiek dat door vrouwen werd geschreven van dag tot dag (Diaz et al. 2016) . Dus wat een verandering in de stemming van het Twittervers lijkt te zijn, kan in feite gewoon een verandering zijn in wie er op elk moment spreekt. Naast deze kortetermijnfluctuaties is er ook een langetermijntrend van bepaalde demografische groepen die Twitter adopteren en verlaten.

Naast veranderingen in wie een systeem gebruikt, zijn er ook veranderingen in de manier waarop het systeem wordt gebruikt, wat ik gedragsdrift noem. Tijdens de protesten van Occupy Gezi in 2013 in 2013 veranderden demonstranten hun gebruik van hashtags toen het protest zich ontwikkelde. Hier is hoe Zeynep Tufekci (2014) de gedragsverandering omschreef, die ze kon detecteren omdat ze gedrag observeerde op Twitter en in persoon:

"Wat er was gebeurd, was dat zodra het protest het dominante verhaal werd, veel mensen stopten met het gebruik van de hashtags behalve om de aandacht te vestigen op een nieuw fenomeen ... Terwijl de protesten werden voortgezet en zelfs werden geïntensiveerd, stierven de hashtags. Interviews brachten twee redenen aan het licht. Ten eerste, zodra iedereen het onderwerp kende, was de hashtag tegelijkertijd overbodig en verkwistend op het karakterbeperkte Twitter-platform. Ten tweede werden hashtags alleen gezien als nuttig om aandacht te vestigen op een bepaald onderwerp, niet om erover te praten. "

Aldus onderzoekers die de protesten werden bestuderen door het analyseren van tweets met-protest-gerelateerde hashtags zou een vertekend gevoel van wat er gebeurde als gevolg van deze gedragsproblemen drift te hebben. Bijvoorbeeld, ze geloven dat de discussie over het protest afgenomen lang voordat het daadwerkelijk afgenomen.

Het derde soort afwijking is systeemafwijking. In dit geval zijn het niet de mensen die veranderen of hun gedrag veranderen, maar het systeem zelf verandert. Facebook heeft bijvoorbeeld in de loop van de tijd de limiet voor de duur van statusupdates verhoogd. Aldus zal elke longitudinale studie van statusupdates kwetsbaar zijn voor artefacten die door deze verandering worden veroorzaakt. Systeemafwijking hangt nauw samen met een probleem dat algoritmische verstoringen wordt genoemd en dat zal ik behandelen in paragraaf 2.3.8.

Tot slot zijn veel big data-bronnen drijvend vanwege veranderingen in wie ze gebruikt, in hoe ze worden gebruikt en in hoe de systemen werken. Deze bronnen van verandering zijn soms interessante onderzoeksvragen, maar deze veranderingen bemoeilijken het vermogen van big-databronnen om langetermijnveranderingen in de loop van de tijd te volgen.