2.3.8 Алгоритмично объркани

Поведението в големите информационни системи не е естествено; тя се ръководи от инженерните цели на системите.

Въпреки че много големи източници на данни не са реактивни, тъй като хората не са наясно, че данните им се записват (раздел 2.3.3), изследователите не трябва да считат поведението в тези онлайн системи за "естествено срещащи се". В действителност цифровите системи, добре проектирани, за да предизвикат специфични поведения като кликване върху реклами или публикуване на съдържание. Начините, по които целите на системните дизайнери могат да въведат модели в данните, се наричат алгоритмични обърквания . Алгоритмичното объркване е сравнително непозната за социалните учени, но това е основна грижа сред внимателните изследователи на данни. И, за разлика от някои от другите проблеми с цифрови следи, алгоритмичното объркване е до голяма степен невидимо.

Сравнително прост пример за алгоритмично объркване е фактът, че на Facebook има аномално голям брой потребители с приблизително 20 приятели, както беше открито от Йохан Угандър и колеги (2011) . Учените, които анализират тези данни, без да разберат как функционира Facebook, без съмнение могат да генерират много истории за това как 20 е някакъв магически социални номер. За щастие Угандър и неговите колеги разбраха съществено процеса на генериране на данните и знаеха, че Facebook насърчава хората с малко връзки във Facebook да направят повече приятели, докато не достигнат 20 приятели. Въпреки че Угандър и колегите не го казват в своята статия, тази политика вероятно е създадена от Facebook, за да се насърчат новите потребители да станат по-активни. Без да знаят за съществуването на тази политика, обаче, от данните е лесно да се направи извода. С други думи, изненадващо високият брой хора с около 20 приятели ни разказва повече за Facebook, отколкото за човешкото поведение.

В този предишен пример, алгоритмичното объркване създаде странни резултати, които един внимателен изследовател може да открие и разследва по-нататък. Все пак има още по-трудна версия на алгоритмичното объркване, което се случва, когато дизайнерите на онлайн системи осъзнават социалните теории и след това изпиват тези теории в работата на своите системи. Социалните учени наричат ​​тази ефективност : когато една теория променя света по такъв начин, че да приведе света по-добре в съответствие с теорията. В случай на алтернативно смущаващо изпълнение, объркващото естество на данните е много трудно да се открие.

Един пример за модел, създаден от ефективността, е преходността в онлайн социалните мрежи. През 70-те и 80-те години на миналия век, изследователите многократно са открили, че ако сте приятели както с Алис, така и с Боб, тогава Алис и Боб са по-склонни да бъдат приятели един от друг, отколкото ако са двама случайно избрани хора. Този същият модел е открит в социалната графика на Facebook (Ugander et al. 2011) . По този начин може да се заключи, че моделите на приятелство във Facebook възпроизвеждат модели на офлайн приятелства, поне по отношение на преходността. Въпреки това, степента на преходност в софийската графика на Facebook е частично обусловена от алгоритмично объркване. Това означава, че изследователите на данни в Facebook са знаели за емпиричните и теоретични изследвания за преходността и след това са го изпекли в начина, по който Facebook работи. Facebook има функция "Хората, които може да знаете", които предлагат нови приятели и един от начините, по който Facebook решава кого да Ви предложи е преходност. Това означава, че Facebook е по-вероятно да ви предложи да станете приятели с приятелите на приятелите си. По този начин тази функция има ефект на увеличаване на прехода в социалната графика на Facebook; с други думи, теорията за преходността привежда света в съответствие с прогнозите на теорията (Zignani et al. 2014; Healy 2015) . По този начин, когато големи източници на данни изглежда, че възпроизвеждат предсказанията на социалната теория, трябва да сме сигурни, че самата теория не е изпечена в начина, по който функционира системата.

Вместо да мислиш за големи източници на данни като наблюдаване на хора в естествена среда, по-подходяща метафора наблюдава хората в казиното. Казината е с висока инженерна среда, създадена да предизвика определени поведения, а изследователят никога не би очаквал поведението в казиното да осигури неограничено прозорче в човешкото поведение. Разбира се, можете да научите нещо за човешкото поведение, като изучавате хората в казина, но ако не сте пренебрегнали факта, че данните се създават в казино, може да се направят някои лоши изводи.

За съжаление, справянето с алгоритмичното объркване е особено трудно, защото много от функциите на онлайн системите са собственост, лошо документирани и постоянно се променят. Например, както ще обясня по-късно в тази глава, алгоритмичното объркване е едно от възможните обяснения за постепенното разпадане на Грипните тенденции в Google (раздел 2.4.2), но това твърдение беше трудно да се оцени, защото вътрешната работа на алгоритъма за търсене на Google е собственически. Динамичният характер на алгоритмичното объркване е една от формите на системно отклонение. Алгоритмичното объркване означава, че трябва да бъдем предпазливи относно всяко твърдение за човешко поведение, което идва от една цифрова система, независимо колко голяма.