5.3.1 Netflix preemia

Netflixi auhind kasutab avatud konkursi ennustada, mis filme inimesed meeldi.

Tuntuim avatud taotlusvoorust projekti on Netflix preemia. Netflix on online filmi rendifirma ning 2000. aastal alustas ta Cinematch, teenuse soovitada filme klientidele. Näiteks Cinematch võib märgata, et teile meeldis Star Wars ja Empire Strikes Back ja siis soovitame vaadata Return of the Jedi. Esialgu Cinematch töötas halvasti. Aga üle paljude aastate jooksul, Cinematch jätkuvalt parandada oma võimet ennustada, mis filme kliendid saaksid. Aastaks 2006 aga edu Cinematch jäänud samaks. Teadlaste Netflix püüdis päris palju kõike, mida nad võiks mõelda, kuid samal ajal on nad kahtlus, et seal olid teised plaanid, mis võivad aidata neil parandada oma süsteemi. Seega nad tulid, mis oli tol ajal, radikaalne lahendus: avalikul konkursil.

Kriitiline lõpuks edu Netflix preemia oli, kuidas avatud konkursi eesmärk oli, ja see disain on olulisi õppetunde, kuidas avatud kõnesid saab kasutada sotsiaalsed uuringud. Netflix ei ole lihtsalt välja pandud struktureerimata taotluse ideid, mis on see, mida paljud inimesed ette kujutada, kui nad kõigepealt välja avalikul konkursil. Pigem Netflix põhjustatud probleemi selge lihtsa hindamiskriteeriumid: nad vaidlustasid inimesi kasutama komplekt 100 miljonit filmi hinnet ennustada 3 miljonit toimunud-out hinnangust (hinnangust, et kasutajad olid teinud, vaid et Netflix ei vabasta). Igaüks, kes võiksid luua algoritmi, mis võiks ennustada 3 miljonit toimunud-out hinnangust 10% parem kui Cinematch võidab 1 miljon dollarit. See selge ja lihtne kohaldada hindamiskriteeriumid-võrrelda ennustatud reitinguid toimunud-out hinnangust-tähendas, et Netflix preemia oli sõnastatud nii, et lahendused on lihtsam kontrollida kui tekitada; selgus olulisim parandada Cinematch arvesse probleem sobib avalikul konkursil.

Oktoobris 2006, Netflix välja andmestik, mis sisaldab 100 miljonit filmi hinnet umbes umbes 500.000 klienti (vaatleme privaatsust mõju need andmed vabastamise peatükis 6). Netflix andmeid saab kontseptualiseeritud kui suur maatriks, mis on umbes 500.000 klientidele 20000 filme. Selles maatriksis, oli umbes 100 miljonit hinnangust skaalal 1 kuni 5 tähte (tabel 5.2). Eesmärk oli kasutada vaatluste andmed maatriksis ennustada 3 miljonit toimunud-out hinnangust.

Tabel 5.2: skeem andmeid Netflix preemia. Netflix vabaneb umbes 100 miljonit hinnangust (1 täht 5 tärni), mida 500.000 klientidele 20000 filme. Eesmärk Netflix preemia oli kasutada neid pole ennustada soetatud välja hinnangust 3 miljonit filme näidatakse "?". Prognoositav hinnangust esitatud osalejate Netflix preemia võrreldi soetatud välja hinnangust. Ma arutada eetiliste küsimustega seotud andmete vabastamise 6. peatükis.
filmi 1 filmi 2 movie 3 . . . filmi 20000
Kliendi 1 2 5 . ?
Kliendi 2 2 ? . 3
Kliendi 3 ? 2 .
. . . . . . . .
Kliendi 500000 ? 2 . 1

Teadlased ja häkkerite üle maailma juhiti väljakutse ja aastaks 2008 enam kui 30.000 inimest kallal (Thompson 2008) . Jooksul võistlus, Netflix sai üle 40,000 pakutud lahendusi rohkem kui 5000 võistkonda (Netflix 2009) . Ilmselt Netflix ei saanud lugeda ja mõista kõigi nende pakutud lahendused. Kogu asi jooksis sujuvalt, aga kuna lahendused olid lihtne kontrollida. Netflix võiks lihtsalt on arvuti võrrelda ennustatud reitinguid soetatud välja hinnangust poolt eelnevalt kindlaks määratud teabe (konkreetse metric nad kasutasid oli ruutjuur keskmine-ruudus viga). See oli võime kiiresti hinnata lahendusi, mis võimaldas Netflix aktsepteerida lahendusi kõigile, mis osutus oluliseks, sest häid ideid tuli üllatavaid kohti. Tegelikult on võitnud lahendus esitas meeskond alustas kolm teadlased, et ei olnud enne ehitamise kogemust filmi soovitus süsteemid (Bell, Koren, and Volinsky 2010) .

Üks ilus aspekt Netflix preemia on see, et see võimaldas igaüks maailmas on oma lahendus hinnata õiglaselt. Kui inimesed laadisid oma ennustas hinnangust, et nad ei pea laadida oma akadeemilise Volituste, vanuse, rassi, soo, seksuaalse sättumuse või midagi ise. Nii ennustas pole kuulsa professor Stanfordi raviti täpselt samad nagu teismeline oma magamistoas. Kahjuks ei ole see tõsi kõige sotsiaalsed uuringud. See tähendab, et kõige sotsiaalsed uuringud, hindamine on väga aeganõudev ja osaliselt subjektiivne. Niisiis, kõige teadusuuringute ideed kunagi tõsiselt hinnata, ja kui ideed on hinnatud, on raske lahti neid hinnanguid looja ideid. Kuna lahendused on lihtne kontrollida, avatud kõned võimaldab teadlastel kasutada kõiki võimalikke imeline lahendusi, mis langeks pragude kaudu, kui nad ainult lugeda lahendusi kuulus professorid.

Näiteks ühel hetkel ajal Netflix preemia keegi varjunimi Simon Funk postitati oma blogisse pakutud lahendus põhineb ainsuse väärtus lagunemise lähenemine on lineaarne algebra, mis ei olnud varem kasutatud teiste osalejate poolt. Funk blogipostitust oli üheaegselt tehnilise ja kummaliselt mitteametlik. Kas see blogi postitus kirjeldab hea lahendus või oli see aja raiskamine? Väljaspool avalikul konkursil projekti lahendus võiks kunagi saanud tõsine hindamine. Lõppude Simon Funk olnud professor Cal Tech või MIT; ta oli tarkvara arendaja, kes tol ajal oli seenenoppimisse ümber Uus-Meremaa (Piatetsky 2007) . Kui ta oli saadetakse see mõte insener Netflix, siis peaaegu kindlasti ei oleks tõsiselt võtta.

Õnneks, sest hindamiskriteeriumid olid selged ja lihtne kohaldada, tema ennustas hinnangust hinnati, ja see oli kohe selge, et tema lähenemine oli väga võimas: ta tõustes kuni neljanda koha konkurentsi, tohutu tulemus, arvestades, et teised meeskonnad olid juba töötavad kuud probleem. In the end, osad Simon Funk lähenemisviisi kasutati praktiliselt kõik tõsised konkurendid (Bell, Koren, and Volinsky 2010) .

Asjaolu, et Simon Funk valis kirjutada blogi postitus selgitades oma lähenemine, selle asemel, et hoida seda salajas, näitab ka, et paljud osalejad Netflix auhind ei eranditult ajendatud miljoni dollari auhinna. Pigem paljud osalejad ka tundus, et nautida intellektuaalse väljakutse ja kogukond, mis ehitatakse probleem (Thompson 2008) , tunnete, et ootan paljud teadlased aru saavad.

Netflixi auhind on klassikaline näide avalikul konkursil. Netflix põhjustatud küsimus konkreetne eesmärk (ennustavad filmi hinnet) ning küsis lahendusi paljudele inimestele. Netflix oli võimalik hinnata kõiki neid lahendusi, sest nad olid lihtsam kontrollida kui luua, ning lõpuks Netflix valisin parima lahenduse. Järgmine, ma näitan sulle, kuidas see sama lähenemist saab kasutada bioloogia ja õigusega.