5.3.1 Netflix nagradu

Netflix nagradu koristi otvoreni poziv za predviđanje koje filmove ljudi će vam se svidjeti.

Najpoznatiji projekt otvorenog poziva je Netflix nagrada. Netflix je firma za iznajmljivanje filmova na internetu, a 2000. godine pokrenula je Cinematch, uslugu koja preporučuje filmove korisnicima. Na primjer, Cinematch može primjetiti da vam se sviđaju Star Wars i The Empire Strikes Back, a zatim vam preporučujemo da gledate Povratak Jedi . U početku Cinematch je radio loše. Ali, tokom mnogo godina, nastavio je da unapređuje svoju sposobnost da predvidi koje filmove kupci uživaju. Do 2006. godine, međutim, napredak na Cinematch-u je bio usporen. Istraživači kompanije Netflix su pokušali prilično sve što su mogli da razmišljaju, ali su istovremeno pretpostavili da postoje i druge ideje koje bi im mogle pomoći u poboljšanju njihovog sistema. Tako su došli do onoga što je tada bilo radikalno rešenje: otvoreni poziv.

Kritični za eventualni uspeh Netflix nagrade je bio kako je dizajniran otvoreni poziv, a ovaj dizajn ima važne lekcije kako se otvoreni pozivi mogu koristiti za društvena istraživanja. Netflix nije samo izdao nestrukturirani zahtev za ideje, to je ono što mnogi zamišljaju kada prvi razmotre otvoreni poziv. Umesto toga, Netflix je postavio jasan problem jednostavnom procedurom procene: oni su izazvali ljude da koriste set od 100 miliona filmskih ocjena kako bi predvidjeli 3 miliona odrezanih ocjena (ocjene koje su korisnici napravili, ali Netflix nije objavio). Prva osoba koja je stvorila algoritam koja je predvidela 3 miliona bonusa od 10% bolje od Cinematcha bi osvojila milion dolara. Ova jasna i jednostavna procedura procene - upoređivanje predviđenih rejtinga sa izdržanim ocenama - značilo je da je Netflix nagrada okružena tako da je rješenja lakše provjeriti nego generirati; to je izazvalo poboljšanje Cinematch-a u problem koji odgovara otvorenom pozivu.

U oktobru 2006. Netflix je objavio skup podataka koji sadrži 100 miliona filmskih ocjena od oko 500.000 klijenata (mi ćemo razmotriti implikacije privatnosti ovog izdavanja podataka u poglavlju 6). Netflix podaci se mogu koncipirati kao ogromna matrica koja je oko 500.000 klijenata sa 20.000 filmova. U okviru ove matrice, bilo je oko 100 miliona ocena na skali od jedne do pet zvezdica (tabela 5.2). Izazov je bio da se koriste posmatrani podaci u matrici kako bi se predvidjeli 3 miliona izdržanih rejtinga.

Tabela 5.2: Shema podataka iz Netflix nagrade
Film 1 Film 2 Film 3 ... Film 20,000
Kupac 1 2 5 ... ?
Korisnik 2 2 ? ... 3
Korisnik 3 ? 2 ...
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
Korisnik 500.000 ? 2 ... 1

Na izazov su privukli istraživači i hakeri širom svijeta, a do 2008. godine radilo je više od 30.000 ljudi (Thompson 2008) . Tokom takmičenja, Netflix je dobio više od 40.000 predloženih rješenja iz više od 5.000 timova (Netflix 2009) . Očigledno je da Netflix nije mogao čitati i razumjeti sva ova predložena rješenja. Ipak, cela stvar se odvijala glatko, međutim, jer su rješenja bila lako proveriti. Netflix bi mogao samo imati računar upoređivanje predviđenih rejtinga sa izdržanim ocenama pomoću unapred definisane metrike (određena metrika koju su koristili je kvadratni korijen srednje kvadratne greške). Upravo ova mogućnost je brzo procijenila rješenja koja su Netflixu omogućila da prihvate rješenja od svih koji su se pokazali važnim jer su dobre ideje došle sa nekih iznenađujućih mjesta. U stvari, pobedničko rešenje je podneo tim koji su započeli tri istraživača koji nisu imali prethodno iskustvo u izgradnji filmskih preporuka (Bell, Koren, and Volinsky 2010) .

Jedan od predivnih aspekata Netflix nagrade je da je omogućeno da se sva predložena rješenja poštuju. To jest, kada su ljudi postavili svoje predviđene ocene, nisu im trebali učitati akademske akreditive, njihovu starost, rasnu pripadnost, pol, seksualnu orijentaciju ili bilo šta o sebi. Predviđene ocene poznatog profesora iz Stanforda tretirane su potpuno isto kao i one iz tinejdžera u njenoj spavaćoj sobi. Nažalost, ovo nije tačno u većini društvenih istraživanja. To jest, za većinu društvenih istraživanja, evaluacija je veoma dugotrajna i delimično subjektivna. Dakle, većina istraživačkih ideja nikada nije ozbiljno procijenjena, a kada se procjenjuje ideja, te procjene je teško odvojiti od tvorca ideja. Otvoreni projekti poziva, s druge strane, imaju jednostavnu i pravičnu procjenu, tako da mogu otkriti ideje koje bi se propuštale na drugi način.

Na primer, u jednom trenutku tokom Netflix nagrade, neko sa ekranskim imenom Simon Funk objavio je na svom blogu predloženo rešenje zasnovano na singularnoj dekompoziciji vrednosti, pristupu linearne algebre koji ranije nisu koristili drugi učesnici. Funk blog post je bio istovremeno tehnički i čudno neformalni. Da li je ovaj blog opisao dobro rešenje ili je to bilo gubljenje vremena? Osim projekta otvorenog poziva, rješenje možda nikad nije dobilo ozbiljnu procjenu. Na kraju krajeva, Simon Funk nije bio profesor na MIT-u; bio je softverski programer koji je u to vreme bio u (Piatetsky 2007) oko Novog Zelanda (Piatetsky 2007) . Ako je ovu ideju poslao inženjeru u Netflix-u, gotovo sigurno ne bi bio pročitan.

Na sreću, pošto su kriterijumi za ocenjivanje bili jasni i jednostavni za primjenu, ocijenjeni su njegovi predviđeni rejtingi, a odmah je bilo jasno da je njegov pristup bio vrlo moćan: on je skoknuo na četvrto mesto u takmičenju, što je ogroman rezultat s obzirom da su drugi timovi već bili radi mesecima na problemu. Na kraju, njegovi pristupi su koristili praktično svi ozbiljni konkurenti (Bell, Koren, and Volinsky 2010) .

Činjenica da je Simon Funk odabrao da napiše blog post koji objašnjava njegov pristup, a ne pokušava da ga čuva tajno, takođe ilustruje da mnogi učesnici Netflix nagrade nisu bili isključivo motivisani nagradom od milion dolara. Izgleda da su mnogi učesnici uživali u intelektualnom izazovu i zajednici koja se razvila oko problema (Thompson 2008) , osećanja koje očekujem od mnogih istraživača.

Nagrada Netflix je klasičan primer otvorenog poziva. Netflix je postavio pitanje sa određenim ciljem (predviđanjem rejtinga filma) i traženih rešenja od mnogih ljudi. Netflix je mogao ocijeniti sva ova rješenja, jer je bilo lakše provjeriti nego napraviti, i na kraju Netflix odabrao najbolje rješenje. Zatim ću vam pokazati kako se isti isti pristup može koristiti u biologiji i pravu, a bez nagrade od milion dolara.