5.3.1 Netflix Cena

Netflix Cena využíva otvorenú výzvu predpovedať, aké filmy sa budú ľudia radi.

Najznámejší projekt Otvorená výzva je Netflix cena. Netflix je online film požičovňa, av roku 2000 začala Cinematch, službu sa Vám filmy zákazníkom. Napríklad Cinematch všimnúť, že sa vám páčil Star Wars a Ríše sa pomstí a potom odporúčame sledovať Návratu Jediho. Spočiatku Cinematch pracoval zle. Ale v priebehu mnohých rokov, Cinematch aj naďalej zlepšovať svoju schopnosť predvídať, aké filmy by zákazníci tešiť. Do roku 2006 však pokrok v Cinematch plateau. Výskumníci na Netflix sa snažil skoro všetko, čo by mohli myslieť, ale zároveň, že podozrenie, že existujú aj iné nápady, ktoré by mohli pomôcť k zlepšeniu ich systém. Tak, oni prišli s tým, čo bolo v tej dobe, radikálne riešenie: otvorenú výzvu.

Rozhodujúce pre eventuálne úspech Netflix ceny bolo, ako bola otvorená výzva navrhnutý, a táto konštrukcia má významné poučenie pre to, ako open hovory môžu byť použité pre sociálny výskum. Netflix nebol len vyháňanie neštruktúrované žiadosť o nápady, čo je to, čo mnohí ľudia si predstaviť, keď najprv zvážiť otvorenú výzvu. Skôr Netflix predstavuje jasný problém s jednoduchým hodnotiacich kritérií: oni napádal ľudí, aby používali sadu 100 miliónov hodnotenie filmov predvídať 3 milióny držaných-out hodnotenie (tarifikáciu že užívatelia si vykonané, ale že Netflix nepustil). Každý, kto by mohol vytvoriť algoritmus, ktorý by mohol predpovedať na 3 milióny držaných-out rating 10% lepší ako Cinematch by vyhrať 1 milión dolárov. Toto jasné a ľahko použiteľné hodnotiace kritériá, porovnávanie predikovaných ratingy držaných-out hodnotenie, znamenala, že Netflix cena bola koncipovaná tak, aby riešenie sú ľahšie kontrolovať ako vytvárať; Ukázalo úlohu zlepšiť Cinematch na problém vhodné pre otvorené výzvy.

V októbri roku 2006, Netflix uvoľní sadu dát obsahujúci 100 miliónov hodnotenie filmov z približne o 500 tisíc zákazníkov (budeme zvažovať dôsledky ochrane osobných údajov v tejto verzii údajov v kapitole 6). Dáta Netflix možno považovať ako obrovský matrice, ktorá je približne 500.000 zákazníkov o 20.000 filmov. V rámci tejto matice, tam bolo asi 100 miliónov klasifikácie na škále od 1 do 5 hviezdičiek (tabuľka 5.2). Výzvou bolo využiť zistené údaje v matici predvídať 3 milióny držaných-out hodnotenie.

Tabuľka 5.2: Schematické dát z Netflix Prize. Netflix uvoľní asi 100 miliónov ratings (1 až 5 hviezdičiek) poskytované 500.000 zákazníkov na 20.000 filmov. Cieľom Netflix ceny bolo použitie týchto hodnotení predvídať držané-out rating 3 milióny filmov, zobrazené ako "?". Predpovedané hodnotenie predložené účastníkmi Netflix ceny boli porovnané s držaných-out hodnotenie. Aj bude diskutovať o etické otázky obklopujúce túto verziu údajov v kapitole 6.
film 1 Movie 2 Movie 3 , , , film 20.000
zákazník 1 2 5 , ?
zákazník 2 2 ? , 3
zákazník 3 ? 2 ,
, , , , , , , ,
zákazník 500000 ? 2 , 1

Výskumní pracovníci a hackeri na celom svete boli čerpané na túto výzvu, a do roku 2008 bolo viac ako 30.000 ľudí na tom pracuje (Thompson 2008) . V priebehu súťaže, Netflix dostala viac ako 40.000 navrhnuté riešenia z viac ako 5000 tímov (Netflix 2009) . Je zrejmé, že Netflix nemohol prečítať a pochopiť všetky tieto návrhy riešení. Celá vec hladko, však, pretože riešenie bolo jednoduché kontrolovať. Netflix mohol mať počítač porovnať predikované ratingy držaných-out hodnotenia podľa vopred špecifikovanej metrického (na konkrétnych metrických, že bola použitá druhá odmocnina chyby strednej-kvadrát). Bola to práve táto schopnosť rýchlo vyhodnotiť riešenia, ktoré umožnili Netflix prijať riešenie od každého, čo sa ukázalo byť dôležité, pretože dobré nápady pochádzajú z niekoľkých prekvapivých miestach. V skutočnosti, víťazný roztok bol predložený tímom začal tromi výskumníkmi, ktorí mali žiadne predchádzajúce skúsenosti stavebných odporúčanie film systémy (Bell, Koren, and Volinsky 2010) .

Jedného krásneho aspekt Netflix ceny je to, že umožnil každému na svete, aby ich riešenia vyhodnotená spravodlivo. Keď ľudia nahral predpokladaných hodnotenie, nepotrebovali nahrať svoje akademické poverenia, ich vek, rasu, pohlavie, sexuálnu orientáciu, alebo niečo o sebe. To znamená, že predpovedané rating známeho profesora z Stanforde boli ošetrené úplne rovnaké ako tie z teenager v jej spálni. Bohužiaľ, toto nie je pravda, vo väčšine sociálneho výskumu. To znamená, že pre väčšinu sociálneho výskumu, hodnotenie je veľmi časovo náročné a čiastočne subjektívne. Takže, väčšina vedeckej myšlienky sa nikdy vážne vyhodnotené, a ak sú hodnotené myšlienky, je ťažké oddeliť tie hodnotenie od tvorcu myšlienky. Vzhľadom k tomu, riešenie je jednoduché zistiť, otvorené výzvy umožňujú vedcom prístup ku všetkým potenciálne skvelé riešenie, ktoré by spadajú cez trhliny v prípade, že berú do úvahy len riešenia od známych profesorov.

Napríklad u jedného bodu počas niekoho Netflix Cenu s názvom obrazovky Simon Funk zverejnené na svojom blogu navrhovaného riešenia vychádza z dekompozícia singulární hodnoty, čo je prístup z lineárnej algebry, ktoré neboli skôr používané inými účastníkmi. Funk blog post bol súčasne technické a podivne neformálne. Bol tento blog post popisujúce dobré riešenie, alebo to bola strata času? Mimo projektu otvoreného hovoru, roztok možno nikdy dostali vážne vyhodnotenie. Koniec koncov Simon Funk nebol profesor na Cal Tech alebo MIT; bol vývojár softvéru, ktorý v tej dobe bol backpacking okolo Nového Zélandu (Piatetsky 2007) . Keby e-mailom túto myšlienku inžiniera na Netflix, takmer určite by nebol braný vážne.

Našťastie, pretože hodnotiace kritériá boli jasné a ľahko použiteľné, jeho predikované hodnotenia boli vyhodnotené a bolo okamžite jasné, že jeho prístup bol veľmi silný: on prudko na štvrté miesto v súťaži, ohromný výsledok vzhľadom na to, že ostatné tímy už bol pracoval niekoľko mesiacov na problém. Na konci časti prístupu Simon Funk boli použité prakticky všetky vážne konkurentmi (Bell, Koren, and Volinsky 2010) .

Skutočnosť, že Simon Funk rozhodol sa písať blogu vysvetľuje svoj prístup, skôr než sa snažiť udržať v tajnosti, tiež ukazuje, že mnohí účastníci Netflix ceny neboli výlučne motivované miliónov dolárov cenu. Naopak, mnoho účastníkov tiež Zdalo sa, že teraz intelektuálne výzvu a komunitu, ktorá vyvinula riešenie problému (Thompson 2008) , pocity, že myslím, že mnoho výskumníkov môže pochopiť.

Netflix cena je klasickým príkladom otvorenej výzvy. Netflix položil otázku s konkrétny cieľ (predpovedanie hodnotenia filmov) a získaval riešenia od mnohých ľudí. Netflix bol schopný vyhodnotiť všetky tieto riešenia, pretože sa ľahšie overiť, ako vytvoriť, a nakoniec Netflix vybral to najlepšie riešenie. Ďalej ukážem ti, ako možno túto Rovnaký prístup používa v biológii a práva.