2.3.7 дрэйфуючых

Дрэйф насельніцтва, дрэйф выкарыстання і дрэйф сістэмы робяць яго цяжка выкарыстоўваць вялікія крыніцы дадзеных для вывучэння доўгатэрміновых тэндэнцый.

Адным з галоўных пераваг многіх буйных крыніц дадзеных з'яўляецца тое, што яны збіраюць дадзеныя на працягу доўгага часу. Сацыёлагі называюць гэты від па часе дадзеных падоўжных дадзеных. І, натуральна, падоўжныя дадзеныя вельмі важныя для вывучэння змен. Для таго каб надзейна вымераць змена, аднак, сама сістэма вымярэння павінна быць стабільнай. Па словах сацыёлага Otis Дадлі Дункан, «калі вы хочаце вымераць змены, не змяніць меру» (Fischer 2011) .

На жаль, многія сістэмы, асабліва вялікі бізнэс - дадзеных сістэм, якія ўвесь час змяняюцца, працэс , які я буду называць дрэйф. У прыватнасці, гэтыя сістэмы змяняюцца па трох асноўных напрамках: дрэйф насельніцтва (змяненне ў тым, хто іх выкарыстоўвае), паводніцкі дрэйф (змяненне ў тым , як людзі выкарыстоўваюць іх), і дрэйф сістэмы (змяненне самой сістэмы). Тры крыніцы дрэйфу азначае, што любы малюнак у вялікім крыніцы дадзеных можа быць выкліканы важным змяненнем у свеце, ці гэта можа быць выклікана якой-небудзь формай дрэйфу.

Першая крыніца дрэйф насельніцтва дрэйфу, абумоўлены зменамі, хто выкарыстоўвае сістэму, і гэтыя змены могуць адбывацца на абодва кароткія і працяглыя перыяды часу. Напрыклад, падчас выбараў прэзідэнта ЗША ў 2012 годзе доля твітаў пра палітыку , якія былі напісаныя жанчынамі вагаліся з дня ў дзень (Diaz et al. 2016) і (Diaz et al. 2016) . Такім чынам, тое, што можа здацца, што змяненне настрою Twitter-верш сапраўды можа быць проста змена, хто кажа ў любы момант. У дадатак да гэтых кароткатэрміновых ваганняў, таксама назіраецца доўгатэрміновая тэндэнцыя пэўных дэмаграфічных груп, якія прымаюць і адмовіліся Twitter.

У дадатак да зменаў у які выкарыстоўвае сістэму, ёсць таксама змены ў тым, як выкарыстоўваецца сістэма, якую я называю дрэйфам паводніцкі. Напрыклад, на працягу 2013 года займае Gezi пратэсты ў Турцыі, пратэстоўцы змянілі іх выкарыстанне хэштэг як пратэст эвалюцыянавалі. Вось як Зейнеп Tufekci (2014) апісала паводніцкі дрэйф, які яна была ў стане выявіць , таму што яна назірала за паводзіны на Twitter і асабіста:

«Тое, што здарылася, што як толькі пратэст стаў дамінуючым гісторыя, вялікая колькасць людзей ... спынілі выкарыстанне хештегов акрамя прыцягнуць увагу да новага з'яве ... Пакуль пратэсты працягваліся, і нават ўзмацніліся, што Хештеги аціхлі. Інтэрв'ю выявілі дзве прычыны для гэтага. Па-першае, калі ўсе ведалі, што па гэтай тэме, хэштэгу быў адразу залішнім і марнатраўна на характар ​​абмежаванай платформы Twitter. Па-другое, Хештеги былі заўважаныя толькі карысным для прыцягнення ўвагі да канкрэтнай тэме, а не казаць пра гэта «.

Такім чынам, даследчыкі, якія вывучалі пратэсты, аналізуючы твіты з пратэсту, звязаных з Хештеги будзе мець скажонае адчуванне таго, што адбываецца з-за гэтага паводніцкага дрэйфу. Напрыклад, яны могуць паверыць, што абмеркаванне пратэсту зменшылася задоўга да таго, як на самой справе зменшылася.

Трэці выгляд дрэйфу дрэйф сістэмы. У гэтым выпадку, гэта не людзі, змяненне або іх змяненне паводзін, але сама сістэма змяняецца. Напрыклад, з цягам часу Facebook павялічыў ліміт на даўжыню абнаўлення статусу. Такім чынам, любое падоўжнае даследаванне статусу абнаўленняў будзе ўразліва для артэфактаў, выкліканых гэтым змяненнем. Дрэйф сістэма цесна звязана з праблемай алгарытмічнай збянтэжыліся, якія я разгледжу ў раздзеле 2.3.8.

У заключэнне, многія буйныя крыніцы дадзеных дрэйфуе з-за змяненняў у хто іх выкарыстоўвае, у тым, як яны выкарыстоўваюцца, і ў тым, як праца сістэмы. Гэтыя крыніцы змены часам цікавыя пытанні даследаванні, але гэтыя змены ўскладняюць здольнасць вялікіх крыніц дадзеных для адсочвання доўгатэрміновых змяненняў з цягам часу.