2.3.8 алгарытмічныя брыдка ім

Паводзіны ў вялікіх сістэмах дадзеных не з'яўляецца натуральным; яна прыводзіцца ў рух інжынерных задач сістэм.

Хаця многія буйныя крыніцы дадзеных інэртныя, таму што людзі не ведаюць, іх дадзеныя запісваюцца (раздел 2.3.3), даследчыкі не павінны разглядаць паводзіны гэтых сістэм онлайн, каб быць «натуральным». У рэчаіснасці, лічбавыя сістэмамі, запіс паводзіны высока інжынерыя, каб выклікаць пэўныя паводзіны, напрыклад, націснуўшы на аб'явы або размяшчэнне кантэнту. Шляху , што мэты распрацоўшчыкаў сістэмы могуць увесці шаблоны ў дадзены называюцца алгарытмічныя збянтэжыць. Алгарытмічныя бянтэжыць той адносна невядомых грамадазнаўцаў, але гэта з'яўляецца сур'ёзнай праблемай сярод асцярожных навукоўцаў дадзеных. І, у адрозненне ад некаторых іншых праблем, звязаных з лічбавымі слядамі, алгарытмічны збянтэжыць у асноўным нябачна.

Адносна просты прыклад алгарытмічнага змешванню з'яўляецца тым фактам , што на Facebook ёсць анамальна вялікая колькасць карыстальнікаў з прыкладна 20 сябрамі, як было выяўлена Ёханам Ugander і яго калегамі (2011) . Навукоўцы, аналізуюць гэтыя дадзеныя без якіх-небудзь разуменьняў таго, як Facebook працуе можа, несумненна, генераваць шмат гісторый пра тое, як 20 з'яўляецца сваім родам магічнага ліку сацыяльнага. На шчасце, Ugander і яго калегі мелі істотнае разуменне працэсу, якія стварылі гэтыя дадзеныя, і яны ведалі, што Facebook заклікаў чалавек з некалькімі злучэннямі на Facebook, каб зрабіць больш сяброў, пакуль яны не дасягнулі 20 сяброў. Хоць Ugander і яго калегі не гавораць пра гэта ў сваім артыкуле, гэтая палітыка была меркавана створана Facebook для таго, каб заахвоціць новыя карыстальнік, каб стаць больш актыўнымі. Не ведаючы пра існаванне гэтай палітыкі, аднак, гэта лёгка зрабіць няправільны вывад з дадзеных. Іншымі словамі, на здзіўленне вялікая колькасць людзей, каля 20 сяброў кажа нам больш пра Facebook, чым аб паводзінах чалавека.

У гэтым папярэднім прыкладзе, алгарытмічныя збянтэжыць вырабіў мудрагелісты вынік, уважлівы даследчык можа выявіць і даследаваць далей. Аднак, ёсць яшчэ хітрэй версія алгарытмічнай змешванню, што адбываецца, калі распрацоўшчыкі анлайнавых сістэм ведаюць аб сацыяльных тэорыях, а затым выпякаць гэтыя тэорыі ў працоўныя іх сістэмах. Сацыёлагі называюць гэта перфарматыўнасць: калі тэорыя змяняе свет такім чынам , што гэта прынясе мір у адпаведнасць з тэорыяй. У выпадку творчай алгарытмічнай змешванню, то праклятая прырода дадзеных вельмі цяжка выявіць.

Адным з прыкладаў ўзору, створанага перфарматыўнасць з'яўляецца транзітыўнасць ў сацыяльнай сетцы. У 1970-х і 1980-х гадах даследчыкі неаднаразова выяўлялі, што калі вы з сябрамі Алісай і Бобам, то Аліса і Боб, больш верагодна, быць сябрамі адзін з адным, чым калі б яны былі два выпадкова абранымі людзьмі. Гэта тая ж карціна была знойдзена ў сацыяльны граф на Facebook (Ugander et al. 2011) і (Ugander et al. 2011) . Такім чынам, можна зрабіць выснову аб тым, што ўзоры дружбы на Facebook тыражаваць мадэлі ў аўтаномным рэжыме сяброўствам, па меншай меры, з пункту гледжання транзітыўнасць. Тым не менш, велічыня транзітыўнасць ў сацыяльнай графе Facebook часткова абумоўлена алгарытмічнай змешванню. Гэта значыць, навукоўцы дадзеных на Facebook ведаў эмпірычнага і тэарэтычнага даследавання аб транзітыўнасць і затым абпальваюць яго ў тым, як працуе Facebook. Facebook мае «People You May Know», якая прапануе новыя сябры, і адзін спосаб, які вырашае, хто facebook прапанаваць вам гэта транзітыўнасць. Гэта значыць, Facebook, больш верагодна выказаць здагадку, што вы пасябравалі з сябрамі вашых сяброў. Такім чынам, гэтая функцыя мае эфект павелічэння транзітыўнасць ў сацыяльным графе Facebook; Іншымі словамі, тэорыя пераходнасці прыносіць свет ў адпаведнасць з прадказаннямі тэорыі (Zignani et al. 2014; Healy 2015) і (Zignani et al. 2014; Healy 2015) . Такім чынам, калі вялікія крыніцы дадзеных з'яўляюцца прайграць прадказанні сацыяльнай тэорыі, мы павінны быць упэўненыя ў тым, што сама тэорыя не выпякалі ў тым, як працуе сістэма.

Замест таго, каб думаць пра вялікія крыніцах дадзеных назіранні за людзьмі ў натуральных умовах, больш падыходная метафара назірае людзей у казіно. Казіно высока распрацаваны асяроддзя, распрацаваныя, каб выклікаць пэўныя паводзіны, і даследчык ніколі б не чакаць паводзінаў у казіно, каб забяспечыць неабмежаваную акно ў паводзіны чалавека. Вядома, вы маглі б даведацца сёе-тое аб чалавечым паводзінах, вывучаючы людзей у казіно, але калі вы ігнаравалі той факт, што дадзеныя ствараецца ў казіно, вы можаце зрабіць некаторыя дрэнныя высновы.

На жаль, справа з алгарытмічнай змешванню асабліва цяжка, таму што многія асаблівасці анлайнавых сістэм з'яўляюцца ўласнасцю, дрэнна дакументаваны, і ўвесь час змяняецца. Напрыклад, як я растлумачу пазней у гэтым раздзеле, алгарытмічныя збянтэжыць было адзін з магчымых тлумачэнняў паступовага распаду Google Flu Trends (раздел 2.4.2), але гэта патрабаванне было цяжка ацаніць, бо ўнутраныя работы алгарытму пошуку Google з'яўляюцца ўласнасць. Дынамічная прырода алгарытмічнай змешванню з'яўляецца адной з формаў дрэйфу сістэмы. Алгарытмічныя збянтэжыць азначае, што мы павінны праяўляць асцярожнасць ў дачыненні да любых прэтэнзій у адносінах чалавечага паводзінаў, якое не зыходзіць з адзінай лічбавай сістэмы, незалежна ад таго, наколькі вялікае.