2.3.7 Reki

Íbúafjöldi, notkunarsvið og kerfisdrift gera það erfitt að nota stóra gagnasöfn til að læra langtímaþróun.

Einn af miklu kostum margra stórra gagnaheimilda er að þeir safna gögnum með tímanum. Félagsvísindamenn kalla þessa tegund af gögnum um langvinn gögn í langan tíma. Og, að sjálfsögðu, eru langlendar upplýsingar mjög mikilvægar til að læra breytingu. Til þess að mæla breytingar á áreiðanlegan hátt verður mælingarkerfið sjálft að vera stöðugt. Í orðum félagsfræðings Otis Dudley Duncan, "ef þú vilt mæla breytingar, breyttu ekki málinu" (Fischer 2011) .

Því miður eru mörg stórar gagnakerfi, sérstaklega viðskiptakerfi, að breytast allan tímann, ferli sem ég mun kalla svíf . Sérstaklega breytast þessi kerfi á þremur aðalmálum: íbúaflug (breyting á þeim sem nota þau), hegðunarvandamál (breyting á því hvernig fólk notar þau) og kerfisdrif (breyting á kerfinu sjálfu). Þrír uppsprettur drifsins þýða að öll mynstur í stórum gögnum gætu stafað af mikilvægum breytingum í heiminum, eða það gæti stafað af einhvers konar svíf.

Fyrsti uppspretta svífafræðilegra svima er afleiðing breytinga á hverjir nota kerfið og þessar breytingar geta komið fram bæði á stuttum og löngum tímapunktum. Til dæmis, á forsetakosningum í Bandaríkjunum árið 2012 var hlutfall kvakanna um stjórnmál sem skrifað var af konum sveiflast frá degi til dags (Diaz et al. 2016) . Þannig gæti það sem virðist vera breyting á skapi Twitter-verssins í raun bara vera breyting á hver er að tala hvenær sem er. Til viðbótar við þessar skammtíma sveiflur hefur einnig verið langtímaþróun ákveðinna lýðfræðilegra hópa sem samþykkja og yfirgefa Twitter.

Til viðbótar við breytingar á hverjir eru að nota kerfi, eru einnig breytingar á því hvernig kerfið er notað, sem ég kalla hegðunarvandamál. Til dæmis, á mótmælum í Gezi mótmælunum í Tyrklandi árið 2013, breyttu mótmælendur notkun þeirra á hashtags þar sem mótmælin þróast. Hér er hvernig Zeynep Tufekci (2014) lýsti hegðunarvandamálinu sem hún gat greint þar sem hún fylgdist með hegðun á Twitter og persónulega:

"Það sem gerðist var að um leið og mótmælin varð ríkjandi sagan, tóku fjöldi fólks ... að hætta að nota hashtags nema að vekja athygli á nýju fyrirbæri ... Á meðan mótmælin héldu áfram og jafnvel aukist, létu hnöttarnir niður. Viðtöl sýndu tvær ástæður fyrir þessu. Í fyrsta lagi þegar allir vissu um efnið, þá hefur hashtagið verið óþarfi og sóun á eðli-takmörkuð Twitter vettvang. Í öðru lagi hefur hashtags verið séð aðeins sem gagnlegt til að laða að athygli að tilteknu efni, ekki til að tala um það. "

Þannig vísindamenn sem voru að læra mótmæli því að greina kvak með mótmælum tengdum hashtags hefði brenglast tilfinningu fyrir því hvað var að gerast vegna þessa hegðunarvanda svíf. Til dæmis, gætu þeir telja að umfjöllun um mótmæli minnkaði löngu áður en það minnkaði í raun.

Þriðja tegund drifsins er kerfisdrift. Í þessu tilviki er ekki fólkið að breytast eða hegðun þeirra breytist, en kerfið breytist sjálfum. Til dæmis, með tímanum hefur Facebook aukið takmörk á lengd stöðuuppfærslna. Þannig mun lengdarrannsókn á stöðuuppfærslum vera viðkvæm fyrir artifacts vegna þessa breytinga. Kerfisdrift er nátengd vandamáli sem kallast algrímfræðileg confounding, sem ég mun ná í kafla 2.3.8.

Að lokum eru mörg stór gagnasöfn rekin vegna breytinga á hverjir nota þær, hvernig þær eru notaðar og hvernig kerfin vinna. Þessar uppsprettur breytinga eru stundum áhugaverðar rannsóknar spurningar, en þessar breytingar flækja getu stórra gagnaheimilda til að fylgjast með langtíma breytingum með tímanum.