5.3.1 Netflix nagrada

Netflix Nagrada koristi otvoreni poziv predvidjeti koji filmovi će ljudi vole.

Najpoznatiji projekt otvorenog poziva je nagrada Netflix. Netflix je online tvrtka za najam filmova, a 2000. godine pokrenula je Cinematch, uslugu za preporučivanje filmova korisnicima. Na primjer, Cinematch može primijetiti da vam se svidjelo Ratovi zvijezda i Empire Strikes Back, a zatim preporučujemo da gledate Povratak Jedija . U početku, Cinematch je radio slabo. No, tijekom mnogih godina, nastavlja se poboljšavati sposobnost predviđanja filmova koje korisnici uživaju. Međutim, do 2006. godine napredak na Cinematchu bio je visok. Istraživači Netflixa pokušali su prilično mnogo toga što su mogli razmišljati, no, istovremeno, sumnjaju da postoje i druge ideje koje bi mogle pomoći u poboljšanju njihovog sustava. Stoga su došli do onoga što je u to vrijeme bilo radikalno rješenje: otvoreni poziv.

Ključno za eventualni uspjeh nagrade Netflix bio je način oblikovanja otvorenog poziva, a ovaj dizajn ima važne lekcije kako se otvoreni pozivi mogu koristiti za društvena istraživanja. Netflix nije samo izbacio nestrukturirani zahtjev za idejama, što je ono što mnogi ljudi zamišljaju kad prvi put razmotre otvoreni poziv. Naprotiv, Netflix je postavio jasan problem s jednostavnim postupkom procjene: izazvali su ljude da upotrebljavaju skup od 100 milijuna filmskih ocjena kako bi predvidjeli 3 milijuna izdvojenih ocjena (ocjene koje su korisnici izradili, ali Netflix nije objavio). Prva osoba koja je stvorila algoritam koji je predvidio da je 3 milijuna poboljšanih ocjena 10% bolji od Cinematcha osvojit će milijun dolara. Ovakav jasan i lako primjenjivi postupak ocjenjivanja - uspoređujući predviđenu ocjenu s opterecenim ocjenama - znao je da je nagrada Netflix bila uokvirena tako da su rješenja bila jednostavnija za provjeru od generiranja; pretvorila se u izazov poboljšanja Cinematcha u problem koji odgovara otvorenom pozivu.

U listopadu 2006. Netflix je objavio skup podataka koji sadrži 100 milijuna filmskih ocjena od oko 500.000 klijenata (razmotrit ćemo implikacije privatizacije ovog izdanja podataka u 6. poglavlju). Netflixovi podaci mogu se konceptualizirati kao ogromnu matricu koja je oko 500.000 klijenata za 20.000 filmova. Unutar ove matrice bilo je oko 100 milijuna ocjena na ljestvici od jedne do pet zvijezda (tablica 5.2). Izazov je bio korištenje promatranih podataka u matrici za predviđanje 3 milijuna istaknutih ocjena.

Tablica 5.2: shema podataka iz nagrade Netflix
Film 1 Film 2 Film 3 ... Film 20.000
Kupac 1 2 5 ... ?
Klijent 2 2 ? ... 3
Kupac 3 ? 2 ...
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
Kupac 500.000 ? 2 ... 1

Istraživači i hakeri širom svijeta privukli su izazov, a do 2008. više od 30.000 ljudi radilo je na tom pitanju (Thompson 2008) . Tijekom natjecanja, Netflix je dobio više od 40.000 prijedloga rješenja iz više od 5.000 timova (Netflix 2009) . Očito, Netflix nije mogao čitati i razumjeti sva ova predložena rješenja. Međutim, sve je to bilo glatko jer su rješenja bila jednostavna za provjeru. Netflix bi mogao računati usporediti predviđenu ocjenu s ocjenama koje su se održale pomoću unaprijed određenih mjernih podataka (određeni mjerni podatak koji su upotrijebili bio je kvadratni korijen srednje kvadratne pogreške). To je bila sposobnost da brzo procijenimo rješenja koja su omogućila Netflixu da prihvati rješenja od svih, što se pokazalo značajnim jer su dobre ideje došle iz nekih iznenađujućih mjesta. Zapravo, pobjedničko je rješenje podnijelo tim koji su započeli trojica istraživača koji nisu imali prethodnog iskustva u izgradnji sustava za preporuke filmova (Bell, Koren, and Volinsky 2010) .

Jedan od najljepših aspekata nagrade Netflix je omogućiti pravilno ocjenjivanje svih predloženih rješenja. Naime, kada su korisnici prenijeli svoje predviđene ocjene, nisu trebali prenijeti akademske vjerodajnice, njihovu dob, rasu, spol, seksualnu orijentaciju ili bilo što o sebi. Predviđane ocjene slavnog profesora iz Stanforda bile su tretirane točno onima od tinejdžera u svojoj spavaćoj sobi. Nažalost, to nije istina u većini društvenih istraživanja. To je, za većinu društvenih istraživanja, procjena je vrlo dugotrajna i djelomično subjektivna. Dakle, većina istraživačkih ideja nikad se ne procjenjuje ozbiljno, a kada se procjenjuju ideje, teško je odvojiti te procjene od kreatora ideja. S druge strane, projekti otvorenih poziva imaju jednostavnu i fer procjenu kako bi mogli otkriti ideje koje bi inače propustili.

Na primjer, u jednoj točki tijekom nagrade Netflix, netko s imenom zaslona Simon Funk objavio je na svom blogu predloženo rješenje na temelju pojedinačne razgradnje vrijednosti, pristupa linearne algebre koji prethodno nisu koristili drugi sudionici. Funkov blog post bio je istovremeno tehnički i čudno neformalan. Je li ovaj blog post opisuje dobro rješenje ili je to bio gubitak vremena? Izvan projekata otvorenog poziva, rješenje nikada nije moglo dobiti ozbiljnu procjenu. Uostalom, Simon Funk nije bio profesor na MIT-u; bio je programer softvera koji se u to vrijeme (Piatetsky 2007) novim Zelandom (Piatetsky 2007) . Ako je ovu ideju poslao inženjeru u Netflixu, gotovo sigurno ne bi bio pročitan.

Srećom, budući da su kriteriji ocjenjivanja bili jasni i jednostavni za primjenu, ocjenjuju se njegove predviđene ocjene, a odmah je jasno da je njegov pristup bio vrlo moćan: zauzeo je četvrto mjesto u konkurenciji, što je ogroman rezultat s obzirom da su ostale momčadi već bile mjesecima na problemu. Na kraju, dio njegovog pristupa koristili su gotovo svi ozbiljni konkurenti (Bell, Koren, and Volinsky 2010) .

Činjenica da je Simon Funk odlučio napisati post na blogu objašnjavajući njegov pristup, a ne pokušavati zadržati tajnu, također pokazuje da mnogi sudionici nagrade Netflix nisu isključivo motivirani nagradom od milijun dolara. Umjesto toga, mnogi su sudionici činili da uživaju u intelektualnom izazovu i zajednici koja se razvila oko problema (Thompson 2008) , osjećaje koje očekujem da mnogi istraživači mogu razumjeti.

Nagrada Netflix klasičan je primjer otvorenog poziva. Netflix je postavio pitanje s određenim ciljem (predviđanjem ocjena filma) i traženim rješenjima mnogih ljudi. Netflix je uspio procijeniti sva ova rješenja jer su ih lakše provjerili nego stvorili, a Netflix je naposljetku odabrao najbolje rješenje. Zatim ću vam pokazati kako se isti pristup može koristiti u biologiji i zakonu, a bez nagrade od milijun dolara.