2.3.2.5 Algoritmicky zmiatol

Správanie v nájdeného dát nie je prirodzené, to je riadený inžinierskych cieľu systémov.

Hoci mnoho nájdené zdroje dát sú non-reaktívne, pretože ľudia nie sú vedomí, ich dáta sú zaznamenané (§ 2.3.1.3), výskumní pracovníci by mali nepovažuje správania v týchto on-line systémov je "prirodzene sa vyskytujúce" alebo "čistý". V skutočnosti, digitálne systémy, ktoré správanie rekord sú vysoko navrhnutý tak, aby vyvolať špecifické správanie, ako je klikanie na reklamy alebo zverejňovanie obsahu. Spôsoby, že ciele návrhu systému možno zaviesť vzory do dát sa nazýva algoritmické mätúce. Algoritmické mätúce je relatívne neznámy pre sociológov, ale to je veľkým problémom medzi starostlivými dátových vedcami. A na rozdiel od niektorých iných problémov s digitálnymi stopami, algoritmické mätúce je do značnej miery neviditeľný.

Pomerne jednoduchý príklad algoritmické mätúcich je skutočnosť, že na Facebooku tam byť nezvyčajne vysoký počet užívateľov s približne 20 priateľmi (Ugander et al. 2011) . Vedci analyzujúci s týmito dátami bez pochopenia toho, ako funguje Facebook by nepochybne generovať veľa príbehov o tom, ako 20 je nejaký druh magického čísla sociálneho. Avšak, Ugander a jeho kolegovia mal značný pochopenie procesu, ktorý generoval dáta, a oni vedeli, že Facebook vyzývajú ľudí s niekoľkými spojov na Facebook, aby viac priateľov, než oni dosiahli 20 priateľov. Hoci Ugander a jeho kolegovia nehovoria to v novinách, táto politika bola pravdepodobne vytvorená Facebook s cieľom podporiť nové užívateľa, aby sa viac aktívny. Bez toho aby vedel o existencii tejto politiky, je však ľahko vyvodiť nesprávne závery z dát. Inými slovami, prekvapivo vysoký počet ľudí s asi 20 priateľov vypovedá viac o Facebook než ľudského správania.

Viac zhubný než tento predchádzajúcom príklade, kde algoritmické mätúce vyrobené nepredvídateľný výsledok starostlivú výskumníci by mohlo ďalej skúmať, tam je ešte zložitejšia verzia algoritmického mätúcich ktorý nastane, keď projektanti on-line systémy sú si vedomí sociálnych teórií a potom pečieme tieto teórie do pracovného svojich systémov. Sociológovia nazývajú túto performativity: keď teória zmeniť svet takým spôsobom, že priviesť na svet viac do súladu s teóriou. V prípadoch performatívne algoritmického mätúce, Zmätený povaha údajov, je pravdepodobné, že neviditeľná.

Jeden príklad vzoru vytvoreného performativity je tranzitívnosti v internetových sociálnych sieťach. V roku 1970 a 1980, vedci opakovane zistené, že ak ste priatelia s Alicou a vaše priateľstvo s Bobom, potom Bob a Alice je pravdepodobnejšie, že sa priateliť s každým iný než dvoch náhodne vybraných ľudí. A to veľmi rovnaký vzor bol nájdený v sociálnej grafe na Facebooku (Ugander et al. 2011) . Tak by sa dalo usúdiť, že vzory priateľstvo na Facebooku replikovať vzory off priateľstva, aspoň čo sa týka tranzitívnosti. Avšak, veľkosť tranzitívnosti v Facebook sociálnej grafe je čiastočne poháňaná algoritmické mätúce. To znamená, že dátové vedci z Facebooku vedel empirických a teoretických výskumov tranzitívnosti a potom pečené ju do toho, ako Facebook funguje. Facebook má "ľudia, ktorých poznáte" funkcia, ktorá navrhuje nových kamarátov, a jedným zo spôsobov, Facebook rozhodne, kto navrhnúť, aby vám ich tranzitívnosti. To znamená, že Facebook je väčšia pravdepodobnosť, že naznačujú, že sa nestanete priateľmi s priateľmi svojimi priateľmi. Táto funkcia má teda za následok zvýšenie tranzitívnosti v Facebook sociálnej grafe; Inými slovami, teória tranzitívnosti prináša svet do súladu s predpoveďami teórie (Healy 2015) . Preto, keď veľké zdroje dát sa zdá reprodukovať predpovede sociálna teória, musíme byť istí, že teória sám nebol pečené na to, ako systém funguje.

Skôr ako myslenie veľkých dátových zdrojov, ako pozorovať ľudí v prírodnom prostredí, viac apt metafora pozoruje ľudí v kasíne. Kasína sú vysoko technicky prostredie určených na navodenie určité správanie a výskumníci nikdy očakávať, že správanie v kasíne by poskytnúť neobmedzenú okno do ľudského správania. Samozrejme, že by sme mohli dozvedieť niečo o ľuďoch ľudského správania študuje v kasínach, v skutočnosti kasíno by mohlo byť ideálne prostredie pre štúdium vzťahu medzi konzumáciou alkoholu a rizikom preferenciách, ale ak by sme ignorovali, že dáta bola vytvorená v kasíne by sme mohli vyvodiť nejaké zlé závery.

Bohužiaľ, zaoberajúca sa algoritmické mätúcich je obzvlášť ťažké, pretože mnoho rysov on-line systémy sú proprietárne, zle zdokumentovaný, a neustále sa meniace. Napríklad, ako budem vysvetľovať neskôr v tejto kapitole, algoritmické mätúce bol jedným z možných vysvetlení pre postupné členenie Chrípkové trendy Google (§ 2.4.2), ale toto tvrdenie bolo ťažké posúdiť, keďže je vnútorné fungovanie spoločnosti Google vyhľadávanie algoritmus sú proprietárne. Dynamická povaha algoritmického mätúcich je jedna z foriem systému driftu. Algoritmické mätúce znamená, že by sme mali byť obozretní ohľadom nároku na ľudské správanie, ktorá pochádza z jediného digitálneho systému, bez ohľadu na to, aký veľký.