2.3.8 Algoritmiškai sugedo

Elgesys didelėse duomenų sistemose nėra natūralus; tai lemia sistemų inžineriniai tikslai.

Nors daugelis didelių duomenų šaltinių nereaguoja, nes žmonės nežino, kad jų duomenys yra įrašomi (2.3.3 skirsnis), mokslininkai neturėtų laikyti "natūraliai pasitaikančių" elgesiu šiose internetinėse sistemose. Iš tikrųjų skaitmeninės sistemos, kurios įrašo elgesį, yra labai sukonstruotos taip, kad paskatintų konkrečius elgesio būdus, tokius kaip paspaudimas ant skelbimų arba turinio skelbimas. Sistemų dizainerių tikslai gali įvesti modelius į duomenis, vadinami algoritminiais sutrikimais . Algoritminis sutrikimas palyginti nežinomas socialiniams mokslininkams, tačiau tai yra didelis rūpestingų duomenų mokslininkų rūpestis. Ir, skirtingai nuo kai kurių kitų skaitmeninių pėdsakų problemų, algoritminė konfigūracija yra iš esmės nematoma.

Gana paprastas algoritminių klaidinančių pavyzdžių pavyzdys yra tai, kad "Facebook" sistemoje yra anomališkai daug vartotojų, kuriuose yra maždaug 20 draugų, kaip atrado Johanas Uganderas ir jo kolegos (2011) . Mokslininkai, analizuojantys šiuos duomenis be jokio supratimo apie tai, kaip veikia "Facebook", be abejo, gali sukelti daug pasakojimų apie tai, kaip 20 yra tam tikras magiškas socialinis numeris. Laimei, Uganderis ir jo kolegos suprato, kad procesas sukūrė duomenis, ir jie žinojo, kad "Facebook" skatino žmones, turėjusius mažai "Facebook" ryšių, susirasti daugiau draugų, kol jie pasiekė 20 draugų. Nors Ugander ir jo kolegos to nepasako savo darbe, ši politika, greičiausiai, buvo sukurta "Facebook", siekiant paskatinti naujus vartotojus tapti aktyvesniais. Tačiau nežinodamas apie šios politikos egzistavimą, iš duomenų lengva padaryti netinkamą išvadą. Kitaip tariant, nenuostabu, kad daug žmonių, turinčių apie 20 draugų, mums daugiau apie "Facebook" kalba apie žmonių elgesį.

Šiame ankstesniame pavyzdyje algoritminė konfigūracija sukėlė neįtikėtiną rezultatą, kurį kruopštus tyrėjas gali aptikti ir toliau tirti. Tačiau yra dar sudėtingesnė algoritminės klaidinančios versijos versija, kuri įvyksta tada, kai interneto sistemų kūrėjai žino apie socialines teorijas ir prapjauja šias teorijas į jų sistemų darbą. Socialiniai mokslininkai vadina šį pasišventimą : kai teorija pasaulį pakeičia taip, kad pasaulis labiau atitiktų teoriją. Jei atliekamas performatyvus algoritminis sutrikimas, labai sunku nustatyti suglaudintą duomenų pobūdį.

Vienas iš pavyzdžių, sukurtų perprojektyvumo būdu, yra transliatyvumas interneto socialiniuose tinkluose. 1970-aisiais ir devintajame dešimtmetyje mokslininkai pakartotinai nustatė, kad, jei esate draugai su Alisa ir Bobu, tada Alice ir Bob labiau linkę bendrauti tarpusavyje, nebent jie būtų du atsitiktinai atrinkti žmonės. Šis pats modelis buvo rastas socialiniame "Facebook" grafike (Ugander et al. 2011) . Taigi, galima daryti išvadą, kad "draugystės" modeliai "Facebook" pakartoja draugiškų draugų režimą, bent jau kalbant apie transitivity. Vis dėlto "Facebook" socialinio grafiko transitivityumo dydis iš dalies priklauso nuo algoritminės klaidos. Tai yra, "Facebook" duomenų mokslininkai žinojo apie empirinius ir teorinius tyrimus apie transitizavimą ir tada suprato, kaip "Facebook" veikia. "Facebook" turi "People You May Know" funkciją, kuri siūlo naujų draugų, ir vienas iš būdų, kuriuo "Facebook" nusprendžia, kas jums pasiūlyti yra transitivity. Tai reiškia, kad "Facebook" greičiausiai gali pasiūlyti, kad tapsite draugais su savo draugų draugais. Taigi ši funkcija padidina "Facebook" socialinio grafiko skaidrumą; kitaip tariant, transitivityumo teorija priartina pasaulį su teorijos prognozėmis (Zignani et al. 2014; Healy 2015) . Taigi, kai atrodo, kad dideli duomenų šaltiniai atkuria socialinės teorijos prognozes, turime būti tikri, kad pati teorija nebuvo supakuota į tai, kaip sistema veikė.

Vietoj to, kad galvoti apie didelius duomenų šaltinius, kaip stebėti žmones natūralioje aplinkoje, metafora labiau stebima kazino žmonėms. Kazino yra labai inžinerijos aplinka, sukurta tam, kad paskatintų tam tikrą elgesį, o mokslininkas niekada nesitikėtų elgesio kazino, kad būtų užtikrintas laisvas langas į žmogaus elgesį. Žinoma, jūs galėtumėte sužinoti kažką apie žmogaus elgesį, studijuodami žmones kazino, bet jei ignoruojate tai, kad duomenys buvo sukurti kazino, galite padaryti keletą blogų išvadų.

Deja, algoritminės klaidinančios problemos yra ypač sunkios, nes daugelis internetinių sistemų savybių yra nuosavybės, blogai dokumentuojamos ir nuolat keičiasi. Pavyzdžiui, kaip paaiškinsiu vėliau šiame skyriuje, algoritminė konfiskacija buvo vienas iš galimų "Google" gripo tendencijų suskaidymo paaiškinimo (2.4.2 skirsnis), tačiau šį teiginį sunku įvertinti, nes "Google" paieškos algoritmas yra vidinis patentuota. Dinaminis algoritminių sumaišties pobūdis yra viena sistemos dreifo forma. Algoritminis klaidinimas reiškia, kad turėtume būti atsargiems dėl bet kokio reikalavimo dėl žmogaus elgesio, kuris kilęs iš vienos skaitmeninės sistemos, nesvarbu, koks didelis.