2.3.2.5 Algoritmicky zmatl

Chování v nalezeného dat není přirozené, to je řízen inženýrských cíli systémů.

Ačkoli mnoho nalezené zdroje dat jsou non-reaktivní, protože lidé nejsou vědomi, jejich data jsou zaznamenány (§ 2.3.1.3), výzkumní pracovníci by měli nepovažuje chování v těchto on-line systémů je "přirozeně se vyskytující" nebo "čistý". Ve skutečnosti, digitální systémy, které chování rekord jsou vysoce navržen tak, aby vyvolat specifické chování, jako je klikání na reklamy nebo zveřejňování obsahu. Způsoby, že cíle návrhu systému lze zavést vzory do dat se nazývá algoritmické matoucí. Algoritmické matoucí je relativně neznámý pro sociology, ale to je velkým problémem mezi pečlivými datových vědci. A na rozdíl od některých jiných problémů s digitálními stopami, algoritmické matoucí je do značné míry neviditelný.

Poměrně jednoduchý příklad algoritmické matoucích je skutečnost, že na Facebooku tam být nezvykle vysoký počet uživatelů s přibližně 20 přáteli (Ugander et al. 2011) . Vědci analyzující s těmito daty bez pochopení toho, jak funguje Facebook by nepochybně generovat mnoho příběhů o tom, jak 20 je nějaký druh magického čísla sociálního. Nicméně, Ugander a jeho kolegové měl značný pochopení procesu, který generoval data, a oni věděli, že Facebook vyzývají lidi s několika spojů na Facebook, aby více přátel, než oni dosáhli 20 přátel. Ačkoli Ugander a jeho kolegové neříkají to v novinách, tato politika byla pravděpodobně vytvořena Facebook s cílem podpořit nové uživatele, aby se více aktivní. Aniž by věděl o existenci této politiky, je však snadno vyvodit nesprávné závěry z dat. Jinými slovy, překvapivě vysoký počet lidí s asi 20 přátel vypovídá víc o Facebook než lidského chování.

Více zhoubný než tento předchozím příkladu, kde algoritmické matoucí vyrobené nepředvídatelný výsledek pečlivou výzkumníci by mohlo dále zkoumat, tam je ještě složitější verze algoritmického matoucích který nastane, když projektanti on-line systémy jsou si vědomi sociálních teorií a pak pečeme tyto teorie do pracovního svých systémů. Sociologové nazývají tuto performativity: když teorie změnit svět takovým způsobem, že přivést na svět více do souladu s teorií. V případech performativní algoritmického matoucí, Zmatený povaha údajů, je pravděpodobné, že neviditelná.

Jeden příklad vzoru vytvořeného performativity je tranzitivita v internetových sociálních sítích. V roce 1970 a 1980, vědci opakovaně zjištěno, že pokud jste přátelé s Alicí a vaše přátelství s Bobem, pak Bob a Alice je pravděpodobnější, že se přátelit s každým jiný než dvou náhodně vybraných lidí. A to velmi stejný vzor byl nalezen v sociální grafu na Facebooku (Ugander et al. 2011) . Tak by se dalo usoudit, že vzory přátelství na Facebooku replikovat vzory off přátelství, alespoň co se týče tranzitivity. Nicméně, velikost tranzitivity v Facebook sociální grafu je částečně poháněna algoritmické matoucí. To znamená, že datové vědci z Facebooku věděl empirických a teoretických výzkumů tranzitivity a pak pečené ji do toho, jak Facebook funguje. Facebook má "lidé, které znáte" funkce, která navrhuje nové kamarády, a jedním ze způsobů, Facebook rozhodne, kdo navrhnout, aby vám je tranzitivita. To znamená, že Facebook je větší pravděpodobnost, že naznačují, že se nestanete přáteli s přáteli svými přáteli. Tato funkce má tedy za následek zvýšení tranzitivita v Facebook sociální grafu; Jinými slovy, teorie tranzitivity přináší svět do souladu s předpověďmi teorie (Healy 2015) . Proto, když velké zdroje dat se zdá reprodukovat předpovědi sociální teorie, musíme být jisti, že teorie sám nebyl pečené na to, jak systém funguje.

Spíše než myšlení velkých datových zdrojů, jak pozorovat lidi v přírodním prostředí, více apt metafora pozoruje lidi v kasinu. Kasina jsou vysoce technicky prostředí určených k navození určité chování a výzkumníci nikdy očekávat, že chování v kasinu by poskytnout neomezenou okno do lidského chování. Samozřejmě, že bychom mohli dozvědět něco o lidech lidského chování studuje v kasinech, ve skutečnosti kasino by mohlo být ideální prostředí pro studium vztahu mezi konzumací alkoholu a rizikem preferencích, ale pokud bychom ignorovali, že data byla vytvořena v kasinu bychom mohli vyvodit nějaké špatné závěry.

Bohužel, zabývající se algoritmické matoucích je obzvláště obtížné, protože mnoho rysů on-line systémy jsou proprietární, špatně zdokumentován, a neustále se měnící. Například, jak budu vysvětlovat později v této kapitole, algoritmické matoucí byl jedním z možných vysvětlení pro postupné členění Chřipkové trendy Google (§ 2.4.2), ale toto tvrzení bylo těžké posoudit, jelikož je vnitřní fungování společnosti Google vyhledávání algoritmus jsou proprietární. Dynamická povaha algoritmického matoucích je jedna z forem systému driftu. Algoritmické matoucí znamená, že bychom měli být obezřetní ohledně nároku na lidské chování, která pochází z jediného digitálního systému, bez ohledu na to, jak velký.