2.3.2.5 algorítmicamente konfuzis

Konduto en trovitaj datumoj ne estas natura, ĝi estas pelita de la inĝenierio celoj de la sistemoj.

Kvankam multaj trovitaj datumoj fontoj estas ne-reaktiva ĉar homoj ne konscias sian datumoj estas estanta registrita (Sekcio 2.3.1.3), esploristoj ne konsideri konduton en tiuj rete sistemoj esti "naturaj" aŭ "pura". Fakte, la ciferecajn sistemojn kiuj rekordo konduto estas ege modifitaj por indukti specifajn kondutojn kiel ekzemple klakante sur anoncoj aŭ afiŝante enhavo. La manieroj kiuj la celoj de sistemo diseñadores povas enkonduki padronoj en datumoj nomiĝas algoritma konfuzante. Algoritma konfuzante estas relative malkonata al sociaj sciencistoj, sed ĝi estas grava maltrankvilo inter zorgema datumoj sciencistoj. Kaj, malkiel kelkaj aliaj problemoj kun cifereca spuroj, algoritma konfuzante estas plejparte nevideblaj.

Relative simpla ekzemplo de algoritma konfuzante estas la fakto ke en Facebook estas oni anómalamente alta numero de uzantoj kun proksimume 20 amikoj (Ugander et al. 2011) . Sciencistoj analizi kun tiu datumo sen ajna kompreno de kiel Facebook laboras povis sendube generi multajn rakontojn pri kiel 20 estas ia magia socia numeron. Tamen Ugander kaj liaj kolegoj havis substancan kompreno de la procezo kiu generas la datumojn, kaj ili sciis ke Facebook kuraĝigis personoj kun malmultaj rilatoj en Facebook fari pli amikoj ĝis ili atingis 20 amikoj. Kvankam Ugander kaj kolegoj ne diras tion en la papero, ĉi tiu politiko estis supozeble kreita de Facebook por kuraĝigi novajn uzantojn fariĝi pli aktivaj. Sen scii pri la ekzisto de tiu politiko, tamen, estas facile desegni la erara konkludo el la datumoj. Alivorte, la surprize alta nombro de homoj kun ĉirkaŭ 20 amikoj diras ni pli pri Facebook ol homa konduto.

Pli malutila ol tiu antaŭa ekzemplo kie algoritma konfuzante produktis idiosinkrazia rezulto ke zorgema esploristoj povu enketi plue, estas eĉ pli delikata versio de algoritma konfuzante kiu okazas kiam diseñadores de enretaj sistemoj konscias sociaj teorioj kaj baku tiuj teorioj en la laborista de liaj sistemoj. Sociaj sciencistoj nomas tiun performativity: kiam teorioj ŝanĝi la mondon en tia maniero, ke ili alkonduku la mondo pli en linio kun la teorio. En la kazoj de performativa algoritma konfuzante, la malbenita naturo de la datumoj estas verŝajna nevidebla.

Unu ekzemplo de ŝablono kreita de performativity estas transitiveco en rete sociaj retoj. En la 1970-aj kaj 1980-aj jaroj, esploristoj multfoje trovis ke se vi estas amikoj kun Alice kaj vi estas amikoj kun Bob, tiam Bob kaj Alice estas pli verŝajna al esti amikoj kun si ol du hazarde elektitaj homoj. Kaj, tiu sama padrono estis trovita en la socia grafeo en Facebook (Ugander et al. 2011) . Tiel, oni povus konkludi ke padronoj de amikeco en Facebook repliki padronoj de offline amikecoj, almenaŭ en terminoj de transitiveco. Tamen, la grando de transitiveco en la Facebook socia grafeo estas parte movita per algoritma konfuzante. Te, datumoj sciencistoj ĉe Facebook sciis de la empiria kaj teoria esploro pri transitiveco kaj kuiradis en kiom Facebook funkcias. Facebook havas "People Vi sciu" trajto supoziganta novajn amikojn kaj unu vojon, ke facebook decidas kiu sugesti al vi estas transitiveco. Te Facebook estas pli verŝajna por sugesti ke vi amikiĝis kun la amikoj de viaj amikoj. Tiu funkcio tiel havas la efikon de kreskanta transitiveco en Facebook socia grafeo; en aliaj vortoj, la teorio de transitiveco alportas la mondo en linio kun la prognozoj de la teorio (Healy 2015) . Tiel, kiam grandaj datumoj fontoj ŝajnas reprodukti antaŭdiroj de socia teorio, ni devas esti certaj ke la teorio mem ne bakita pri kiel la sistemo funkciis.

Anstataŭ pensas grandaj datumoj fontoj kiel observante homojn en natura medio, pli kapablan metaforo observas homojn en kazino. Kazinoj estas altagrade modifitaj medioj desegnita indukti certaj kondutoj, kaj esploristoj neniam atendus ke konduto en kazino provizus al senbrida fenestro en homa konduto. Kompreneble, ni povus lerni ion pri homa konduto studas homojn en kazinoj-fakte kazino povus esti ideala opcio por studi la rilaton inter la konsumo de alkoholo kaj risko preferoj-sed se ni ignoris ke la datumoj estis kreita en kazino ni eble desegni iujn malbonajn konkludojn.

Bedaŭrinde, pritraktas algoritma konfuzante estas aparte malfacila ĉar multaj trajtoj de enretaj sistemoj estas proprieta, malbone dokumentitaj, kaj konstante ŝanĝanta. Ekzemple, kiel mi klarigos poste en tiu ĉapitro, algoritma konfuzante estis unu ebla klarigo por la laŭpaŝa disrompo malsupren de Google Flu Trends (Sekcio 2.4.2), sed tiu aserto estis malfacile taksi ĉar la internan funkciadon de Google serĉo algoritmo estas proprieta. La dinamika naturo de algoritma konfuzante estas unu formo de sistemo derivas. Algoritma konfuzante signifas ke ni devus esti singarda pri iu reklamo por homa konduto kiu venas el unusola ciferecan sistemon, negrave kiom granda.