2.3.8 Алгоритмдік түрде шатастырылды

Үлкен деректер жүйелеріндегі мінез-құлық табиғи емес; бұл жүйенің инженерлік мақсаттарына негізделген.

Көптеген үлкен деректер көздері реактивті болмаса да, адамдар өздерінің деректерін жазады (2.3.3 бөлімі), ғалымдар бұл онлайн жүйелердегі мінез-құлықты «табиғи түрде» деп қарастырмауы керек. Шын мәнінде, мінез-құлқын жазатын сандық жүйелер жарнамаларды басу немесе мазмұнды жариялау сияқты белгілі бір мінез-құлықты ынталандыратын жоғары деңгейлі инженер болып табылады. Жүйе дизайнерлерінің мақсаттары деректерге үлгілерді енгізе алатын жолдар алгоритмдік конфигурация деп аталады. Алгоритмдік араласу әлеуметтік ғалымдарға қатысты белгісіз, бірақ мұқият мәліметтер ғалымдары арасында үлкен алаңдаушылық тудырады. Ал, цифрлық ізденістермен байланысты кейбір басқа мәселелерге қарағанда, алгоритмдік конфигурация көбінесе көрінбейді.

Алгоритмдік шатастыруға қатысты қарапайым мысал - Facebook-де 20-ге жуық достары бар, олар Йохан Укандер және әріптестерімен (2011) . Ғалымдар Facebook-ды қалай жұмыс істейтінін білмей-ақ, осы деректерді талдаусыз, 20-ға жуық сиқырлы әлеуметтік санды қалай жасайтыны туралы көп әңгімелер жасай алар еді. Бақытымызға орай, Угандер және оның әріптестері деректерді жасайтын процесті айтарлықтай түсінді және Facebook Facebook-де адамдарға достар табу үшін бірнеше достар табуға ынталы екенін білді, олар 20 достарға жеткенше. Угандер мен әріптестер бұл туралы өздерінің мақалаларында айтпаса да, бұл саясатты жаңа пайдаланушыларға белсенді болуды ынталандыру үшін Facebook құрылды. Алайда осы саясаттың бар-жоқтығын білмей, деректерден дұрыс емес қорытынды жасауға болады. Басқаша айтқанда, 20-ға жуық достары бар таңқаларлық жоғары саны Facebook-ті адам туралы мінез-құлыққа қарағанда көбірек айтады.

Алдыңғы мысалда алгоритмдік шатастырып, мұқият зерттеуші әрі қарай анықтап, зерттей алатын қызықты нәтиже берді. Дегенмен, онлайн жүйелердің дизайнерлері әлеуметтік теориялар туралы білетін және содан кейін осы теорияларды өздерінің жүйелерінің жұмысына айналдырған кезде туындайтын алгоритмдік шатыстырулардың тіпті біртүрлі нұсқасы бар. Әлеуметтік ғалымдар бұл өнімділікті деп атайды: теория әлемді теориямен әлемге жақындататын етіп өзгертеді. Дәлме-дәл алгоритмдік күйде болған жағдайда, деректердің таңқаларлық сипаты өте қиын.

Өнімділікпен жасалған үлгі үлгісі - бұл онлайн әлеуметтік желілердегі транзитивтілік. 1970 және 1980 жылдары зерттеушілер бірнеше рет Альис пен Бобмен дос болсаңдар, Алис пен Боб екі кездейсоқ таңдалған адамдардан гөрі бір-бірімен дос болуға ықыласты екендігін бірнеше рет анықтады. Осындай үлгі Facebook әлеуметтік желісінде табылған (Ugander et al. 2011) . Осылайша, Facebook-дегі достықтың достық үлгісі, достық қарым-қатынастың үлгілерін, кем дегенде, транзитивтілік тұрғысынан репликациялауы мүмкін деген қорытынды жасауға болады. Алайда, Facebook әлеуметтік графигіндегі транзитивтілік шамасы ішінара алгоритмдік шатастырумен байланысты. Яғни, Facebook-тегі деректер ғалымдары транзитивтілік туралы эмпирикалық және теориялық зерттеулерді біліп, кейін Facebook-тің қалай жұмыс істейтініне назар аударды. Facebook-та «Достарыңыз білуі мүмкін» функциясы бар, ол жаңа достарды ұсынады, және Facebook-тің сізге ұсынатын шешімі - бұл транзитивтілік. Яғни, Facebook сізді достарыңыздың достарымен достасуға шақырады. Осылайша, Facebook әлеуметтік желісіндегі транзитивтіліктің өсуіне әсер етеді. басқаша айтқанда, транзитивтілік теориясы әлемді теорияны болжаумен толықтырады (Zignani et al. 2014; Healy 2015) . Осылайша, үлкен дерек көздері әлеуметтік теорияны болжауды қайталау үшін пайда болған кезде, теорияның өзі жүйенің қалай жұмыс істегеніне көз жеткізген жоқ.

Үлкен дерек көздерін адамның табиғат жағдайында байқау ретінде ойлағаннан гөрі, казинодағы адамдарды бақылап тұру әлдеқайда жақсы. Казино - белгілі бір мінез-құлықты тудыруға арналған жоғары инженерлік орталар және зерттеуші казинодағы мінез-құлықты адамның мінез-құлқына әсер етпейтін терезені қамтамасыз етуді ешқашан күтпейді. Әрине, сіз казинодағы адамдарды зерттеу арқылы адам мінез-құлқы туралы бірдеңе біле аласыз, бірақ казинода деректердің жасалуы фактісін елемеген болсаңыз, кейбір жаман қорытындылар жасай аласыз.

Өкінішке орай, алгоритмдік конфигурациямен айналысуға қиындық туады, өйткені онлайн жүйелердің көптеген ерекшеліктері патенттелген, нашар құжатталған және үнемі өзгеріп отырады. Мысалы, осы тараудың соңында түсіндіретін болсам, алгоритмдік араласу Google Flu Trends-ді біртіндеп бұзудың мүмкін болатын түсіндірмесі болды (2.4.2-бөлім), бірақ бұл талапты бағалау қиын болды, себебі Google іздеу алгоритмінің ішкі жұмысы меншік құқығы. Алгоритмдік конфигурацияның динамикалық сипаты жүйелік дрейфтің бір түрі болып табылады. Алгоритмдік шатастыру дегеніміз, біз қандай да бір үлкен цифрлық жүйеден шыққан адам мінез-құлқына қатысты кез-келген талаптан сақ болуымыз керек дегенді білдіреді.