5.3.1 Netflix preemia

Netflixi auhind kasutab avatud konkursi ennustada, mis filme inimesed meeldi.

Kõige tuntum avatud kõneprojekt on Netflixi auhind. Netflix on veebipõhise filmi rendifirma ning aastal 2000 käivitas Cinematchi, kes soovitas filme klientidele soovitada. Näiteks võib Cinematch märkida, et teile meeldisid Star Warsi ja The Empire Strikes Back ja seejärel soovitame vaadata Jedi tagasipöördumist . Esialgu töötas Cinematch halvasti. Kuid paljude aastate jooksul jätkas ta võimet ennustada, milliseid filme saaksid kliendid nautida. Kuid 2006. aastal oli Cinematchi edusammud siiski raskemad. Netflixi teadlased olid üsna proovinud kõike, mida nad võisid mõelda, kuid samal ajal kahtlesid nad, et on olemas ka muid ideid, mis võiksid aidata neil oma süsteemi parandada. Nii tulid nad välja selle aja, mis oli radikaalne lahendus: avatud kõne.

Netflixi auhinna võimaliku edu seisukohast on oluline, kuidas avatud kõne kujundati, ja sellel disainil on olulised õppetunnid, kuidas avatud kõnesid sotsiaalsete uuringute jaoks kasutada. Netflix ei pakkunud lihtsalt struktureerimata ideede nõuet, mida paljud inimesed ette kujutada, kui nad esimest korda loovad avatud kõne. Pigem tekitas Netflix lihtsa hindamismenetlusega selge probleemi: need nõudsid inimestel 100 miljoni filmi reitingu kogumi kasutamist, et prognoosida 3 miljonit pikendatud reitingut (kasutaja poolt tehtud reitingud, mida Netflix ei andnud). Esimene inimene, kes loob algoritmi, mis ennustas 3 miljonit väljakirjutatud reitingut 10% paremini kui Cinematch, võidab miljone dollareid. See selge ja hõlpsasti kohaldatav hindamismenetlus - prognoositud reitingute võrdlemine pikendatud reitingutega - tähendas seda, et Netflixi auhind kujundati selliselt, et lahendusi oleks lihtsam kontrollida kui genereerida; see tõi välja Cinematchi parandamise väljakutse avatud kõne jaoks sobivaks probleemiks.

2006. aasta oktoobris avaldas Netflix andmebaasi, mis sisaldas 100 miljonit filmitüübi reitingut ligikaudu 500 000st kliendilt (me käsitleme selle teabe avaldamise mõju privaatsusele 6. peatükis). Netflixi andmeid saab käsitleda tohutu maatriksina, mis on ligikaudu 500 000 klienti 20 000 filmi kaupa. Selle maatriksi järgi oli skaalal üks kuni viis tähte hinnanguliselt umbes 100 miljonit (tabel 5.2). Väljakutseks oli vaadelda maatriksis olevaid andmeid, et ennustada 3 miljonit väljaantud reitingut.

Tabel 5.2: Netflixi auhinna andmete skeem
Film 1 Filmi 2 Film 3 ... Film 20 000
Klient 1 2 5 ... ?
2. klient 2 ? ... 3
Klient 3 ? 2 ...
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
Kliendi 500 000 ? 2 ... 1

Väljakutsele jõudsid teadlased ja häkkerid üle kogu maailma ning 2008. aastaks töötasid sellega rohkem kui 30 000 inimest (Thompson 2008) . Konkursi käigus sai Netflix rohkem kui 40 000 pakutud lahendust rohkem kui 5000 meeskonnalt (Netflix 2009) . Loomulikult ei saanud Netflix neid kõiki väljapakutud lahendusi lugeda ja mõista. Kuid kogu asi jooksis sujuvalt, sest lahendusi oli lihtne kontrollida. Netflix võiks lihtsalt arvuti võrrelda ennustatavaid reitinguid väljamääratud reitingutega, kasutades eelnevalt määratletud mõõdikut (nende mõõdikuks kasutatud keskmine ruutkeskmise vea ruutjuur). See oli see võime kiiresti hinnata lahendusi, mis võimaldasid Netflixil aktsepteerida kõigi jaoks lahendusi, mis osutusid oluliseks, sest head ideed pärinesid mõnest üllatavast kohast. Tegelikult esitas võitja lahenduse kolme uurija poolt alustatud meeskond, kellel ei olnud eelnevat kogemust filmide soovituste süsteemide loomiseks (Bell, Koren, and Volinsky 2010) .

Netflixi auhinna üks ilus aspekt on see, et see võimaldas hinnata kõiki pakutud lahendusi õiglaselt. See tähendab, et kui inimesed laadisid alla oma prognoositud reitingud, ei pidanud nad üles laadima akadeemilisi mandaate, nende vanust, rassi, sugu, seksuaalset orientatsiooni ega midagi ennast. Stanfordi kuulsa professori ennustatavaid hinnanguid koheldi täpselt samamoodi kui tema magamistoast teismelise juures. Kahjuks pole see enamiku sotsiaalsete uuringute puhul õige. See tähendab, et enamiku sotsiaalsete uuringute puhul on hindamine väga aeganõudev ja osaliselt subjektiivne. Niisiis ei käsitleta enamiku teadusuuringute ideed kunagi tõsiselt, ja ideede hindamisel on neid hindeid idee loojast lahti võtta. Teisest küljest on avatud kõneprojektidel lihtne ja õiglane hindamine, et nad saaksid leida ideid, mida muidu ei saaks.

Näiteks Netflixi auhinna ajal ühes kohas on Simon Funki nimi Simon Funk oma blogis välja pakutud lahenduse, mis põhineb ainsusel põhineval lagunemisel, lineaarse algebra lähenemisviisist, mida teised osalejad varem ei kasutanud. Funki blogi postitus oli samaaegselt tehniline ja erakordselt informaalne. Kas see blogipostitus kirjeldas head lahendust või kas see oli aja raiskamine? Avatud kõnemiprojekti kõrval ei oleks lahendus kunagi saanud tõsist hinnangut. Lõppude lõpuks ei olnud Simon Funk MIT-i professor; Ta oli tarkvaraarendaja, kes sel ajal oli Uus-Meremaaga backpacking (Piatetsky 2007) . Kui ta oleks seda ideed saatnud Netflixi insenerile, ei oleks seda peaaegu kindlasti lugenud.

Õnneks, kuna hindamiskriteeriumid olid selged ja hõlpsasti kohaldatavad, hinnati tema ennustatavaid reitinguid ja oli kohe selge, et tema lähenemine oli väga võimas: ta tõusis neljandale kohale võistlusel, mis oli tohutu tulemus, kuna teised võistkonnad olid juba olnud töötab mitu kuud probleemi. Lõpuks kasutasid selle lähenemisviisi osasid peaaegu kõik tõsised konkurendid (Bell, Koren, and Volinsky 2010) .

Asjaolu, et Simon Funk valis oma lähenemisviisi selgitava blogipostituse kirjutamise, selle asemel, et hoida seda salajasena, näitab ka seda, et paljud Netflixi auhinna osavõtjad ei olnud üksnes miljonite dollarite auhinnaga motiveeritud. Pigem tundus paljudel osalejatel ka intellektuaalset väljakutset ja probleemi kogukonda (Thompson 2008) tundeid, mida ma arvan, et paljud teadlased saavad aru.

Netflixi auhind on avatud kõne klassikaline näide. Netflix esitas paljude inimeste jaoks spetsiifilise eesmärgi (filmi hinnangute ennustamine) ja paljude lahendustega küsimusi. Netflix suutis neid kõiki lahendusi hinnata, sest neid oli lihtsam kontrollida kui luua ja lõpuks Netflix valis parima lahenduse. Järgnevalt näitan teile, kuidas sama lähenemisviisi saab kasutada bioloogias ja seadustes ning ilma miljon dollarit auhinnata.