2.3.8 Algoritmisk forvirret

Adfærd i store datasystemer er ikke naturligt; det er drevet af systemets tekniske mål.

Selvom mange store datakilder ikke er reaktive, fordi folk ikke er opmærksomme på, at deres data registreres (afsnit 2.3.3), bør forskere ikke overveje at adfærd i disse onlinesystemer er "naturligt forekommende". I virkeligheden er de digitale systemer, der registrerer adfærd, højt udviklet til at fremkalde specifikke adfærd som f.eks. klik på annoncer eller udstationering af indhold. De måder, som systemdesigners mål kan introducere mønstre i data kaldes algoritmisk confounding . Algoritmisk confounding er relativt ukendt for socialforskere, men det er et stort problem blandt omhyggelige datavidenskabsfolk. Og i modsætning til nogle af de andre problemer med digitale spor er algoritmisk confounding stort set usynlig.

Et relativt simpelt eksempel på algoritmisk forvirring er, at der på Facebook er et uforholdsmæssigt stort antal brugere med ca. 20 venner, som det blev opdaget af Johan Ugander og kolleger (2011) . Forskere, der analyserer disse data uden forståelse for, hvordan Facebook fungerer, kunne uden tvivl generere mange historier om, hvordan 20 er en slags magisk socialt nummer. Heldigvis havde Ugander og hans kolleger en betydelig forståelse af processen, der genererede dataene, og de vidste, at Facebook opfordrede folk med få forbindelser på Facebook for at få flere venner, indtil de nåede 20 venner. Selvom Ugander og kolleger ikke siger dette i deres papir, blev denne politik formodentlig skabt af Facebook for at tilskynde nye brugere til at blive mere aktive. Uden at vide om eksistensen af ​​denne politik er det dog let at drage den forkerte konklusion fra dataene. Med andre ord fortæller det overraskende høje antal mennesker med omkring 20 venner os mere om Facebook end om menneskelig adfærd.

I dette tidligere eksempel producerede algoritmiske confounding et udsmykket resultat, at en omhyggelig forsker måske opdager og undersøger yderligere. Der er dog en endnu vanskeligere version af algoritmisk confounding, der opstår, når designere af onlinesystemer er opmærksomme på sociale teorier og derefter bager disse teorier ind i deres systems arbejde. Socialforskere kalder denne performativitet : Når en teori ændrer verden på en sådan måde, at den bringer verden mere i tråd med teorien. I tilfælde af performativ algoritmisk confounding er dataens forvirrede karakter meget vanskelig at detektere.

Et eksempel på et mønster skabt af performativitet er transitivitet i online sociale netværk. I 1970'erne og 1980'erne fandt forskerne gentagne gange, at hvis du er venner med både Alice og Bob, er Alice og Bob mere tilbøjelige til at være venner med hinanden end hvis de var to tilfældigt udvalgte personer. Dette samme mønster blev fundet i den sociale graf på Facebook (Ugander et al. 2011) . Således kan man konkludere, at mønstre af venskab på Facebook replikerer mønstre af offline venskaber, i det mindste i form af transitivitet. Størrelsen af ​​transitivitet i Facebooks sociale graf er dog delvist drevet af algoritmisk confounding. Det vil sige, datavidenskabsfolk på Facebook vidste om den empiriske og teoretiske forskning om transitivitet og bagefter det til, hvordan Facebook virker. Facebook har en "People You May Know" -funktion, der foreslår nye venner, og en måde, som Facebook bestemmer, hvem der skal foreslå dig, er transitivitet. Det vil sige, at Facebook er mere tilbøjelige til at foreslå, at du bliver venner med vennerne hos dine venner. Denne funktion har således effekten af ​​stigende overførselsevne i Facebooks sociale graf; med andre ord bringer teori om transitivitet verden i overensstemmelse med forudsigelserne af teorien (Zignani et al. 2014; Healy 2015) . Når store datakilder ser ud til at reproducere forudsigelser om social teori, må vi derfor være sikre på, at selve teorien ikke blev bagt i, hvordan systemet fungerede.

I stedet for at tænke på store datakilder som at observere mennesker i en naturlig situation, er en mere egnet metafor observeret mennesker i et kasino. Kasinoer er højt udviklede miljøer designet til at fremkalde visse adfærd, og en forsker ville aldrig forvente at opførsel i et kasino for at give et uhindret vindue til menneskelig adfærd. Selvfølgelig kan du lære noget om menneskelig adfærd ved at studere folk i kasinoer, men hvis du ignorerer det faktum, at dataene blev oprettet i et kasino, kan du måske trække nogle dårlige konklusioner.

Desværre er det svært at håndtere algoritmisk konfrontering, fordi mange funktioner i onlinesystemer er proprietære, dårligt dokumenterede og konstant ændrer sig. For eksempel, som jeg vil forklare senere i dette kapitel, var algoritmisk confounding en mulig forklaring på den gradvise nedbrydning af Google Flu-tendenser (afsnit 2.4.2), men dette krav var svært at vurdere, fordi de indre funktioner af Googles søgealgoritme er proprietære. Den dynamiske karakter af algoritmisk confounding er en form for systemdrift. Algoritmisk confounding betyder, at vi bør være forsigtige over ethvert krav vedrørende menneskelig adfærd, der kommer fra et enkelt digitalt system, uanset hvor stor.