5.3.1 Netflix Tuzo

Netflix Tuzo anatumia wito wazi kutabiri ambayo sinema watu kama.

vizuri zaidi inayojulikana wazi wito mradi ni Netflix Tuzo. Netflix ni online movie ya kukodisha kampuni, na mwaka 2000 ilizindua Cinematch, huduma kupendekeza sinema kwa wateja. Kwa mfano, Cinematch taarifa kwamba walipenda Star Wars na Dola Strikes Back na kisha kupendekeza kwamba wewe kuangalia Kurudi kwa Jedi. Awali, Cinematch kazi vibaya. Lakini, katika kipindi cha miaka mingi, Cinematch iliendelea kuboresha uwezo wake wa kutabiri nini sinema wateja ingekuwa kufurahia. By 2006, hata hivyo, mafanikio ya Cinematch plateaued. watafiti katika Netflix alijaribu kila kitu pretty much wangeweza kufikiria, lakini wakati huo huo, wao watuhumiwa kwamba kulikuwa na mawazo mengine ambayo inaweza kuwasaidia kuboresha mfumo wao. Hivyo, wao kuja na kile ilikuwa, wakati huo, ufumbuzi radical: wito wazi.

Muhimu kwa mafanikio ya baadaye ya Netflix Tuzo ni jinsi wito wazi ilitengenezwa, na mpango huu ina masomo muhimu kwa jinsi wito wazi inaweza kutumika kwa ajili ya utafiti wa kijamii. Netflix hakuwa tu kuweka nje ombi unstructured kwa ajili ya mawazo, ambayo ni nini watu wengi kufikiria wakati wao wa kwanza kufikiria wito wazi. Badala yake, Netflix vinavyotokana tatizo wazi na vigezo rahisi tathmini: walipinga watu kutumia seti ya milioni 100 movie ratings kutabiri milioni 3 uliofanyika nje ratings (ratings kwamba watumiaji alifanya lakini hiyo Netflix hakuwa na kutolewa). Mtu yeyote ambaye angeweza kuunda algorithm ambayo inaweza kutabiri milioni 3 uliofanyika nje ratings 10% bora kuliko Cinematch angeshinda dola milioni 1. Hii wazi na rahisi kuomba tathmini vigezo-kulinganisha ratings alitabiri uliofanyika nje ratings-ilimaanisha kuwa Netflix Tuzo alikuwa zimeandaliwa katika namna ambayo ufumbuzi ni rahisi kuangalia zaidi kuliko kuzalisha; aligeuka changamoto ya kuboresha Cinematch katika tatizo mzuri kwa ajili ya wito wazi.

Mnamo Oktoba mwaka wa 2006, Netflix iliyotolewa CCD zenye milioni 100 movie ratings kutoka juu ya 500,000 wateja (tutaangalia matokeo ya faragha ya kutolewa hii data katika Sura ya 6). data Netflix inaweza conceptualized kama tumbo kubwa ambayo ni takriban 500,000 wateja kwa 20,000 sinema. Ndani ya tumbo hii, kulikuwa na watu wapatao milioni 100 ratings kwa kiwango kutoka nyota 1 hadi 5 (Jedwali 5.2). Changamoto ni kutumia data kuzingatiwa katika tumbo kutabiri milioni 3 uliofanyika nje ratings.

Jedwali 5.2: kimpango ya data kutoka Netflix Tuzo. Netflix iliyotolewa kuhusu milioni 100 ratings (nyota 1 nyota 5) zinazotolewa na wateja 500,000 juu ya 20,000 sinema. Lengo la Netflix Tuzo ilikuwa kutumia ratings haya kutabiri uliofanyika nje ratings ya sinema milioni 3, umeonyesha kama "?". ratings alikadiria iliyowasilishwa na washiriki katika Netflix Tuzo walikuwa ikilinganishwa na uliofanyika nje ratings. Nami kujadili masuala ya kimaadili jirani kutolewa hii data katika Sura ya 6.
Kisasa 1 movie 2 movie 3 . . . Kisasa 20,000
wateja 1 2 5 . ?
wateja 2 2 ? . 3
wateja 3 ? 2 .
. . . . . . . .
wateja 500,000 ? 2 . 1

Watafiti na Hackare duniani kote walikuwa inayotolewa kwa changamoto, na ifikapo mwaka 2008 zaidi ya watu 30,000 walikuwa wakifanya kazi juu yake (Thompson 2008) . Katika kipindi cha mashindano, Netflix kupokea zaidi ya 40,000 ufumbuzi uliopendekezwa kutoka timu zaidi ya 5,000 (Netflix 2009) . Ni wazi, Netflix hakuweza kusoma na kuelewa ufumbuzi haya yote iliyopendekezwa. jambo zima liweze kwenda vizuri, hata hivyo, kwa sababu ufumbuzi walikuwa rahisi kuangalia. Netflix inaweza tu kuwa na kompyuta kulinganisha ratings alitabiri uliofanyika nje ratings na kabla ya maalum za ujazo (za ujazo hasa walitumia ilikuwa mizizi ya mraba ya makosa maana-squared). Ilikuwa ni uwezo huu kwa haraka kutathmini ufumbuzi kwamba kuwezeshwa Netflix kukubali ufumbuzi kutoka kwa kila mtu, ambayo aligeuka kuwa muhimu kwa sababu mawazo mazuri alikuja kutoka baadhi ya maeneo ya kushangaza. Kwa kweli, ufumbuzi kushinda iliwasilishwa na timu ilianza na watafiti tatu kwamba hakuwa na uzoefu kabla jengo movie mapendekezo mifumo (Bell, Koren, and Volinsky 2010) .

Moja ya sehemu nzuri ya Netflix Tuzo ni kwamba kuwezeshwa kila mtu katika ulimwengu kuwa na ufumbuzi wao tathmini kwa haki. Wakati watu kupakiwa ratings yao ilivyotabiriwa, hawakuwa na haja ya kupakia sifa zao za kitaaluma, wao umri, rangi, jinsia, ya ngono, au kitu chochote kuhusu wao wenyewe. Hivyo, ratings alikadiria ya profesa maarufu kutoka Stanford walitibiwa sawa kama wale kutoka kijana katika chumbani kwake. Kwa bahati mbaya, hii si kweli katika utafiti zaidi ya kijamii. Hiyo ni, kwa ajili ya utafiti zaidi ya kijamii, tathmini ni mara ya kuteketeza na sehemu subjective. Hivyo, mawazo zaidi ya utafiti ni kamwe umakini tathmini, na wakati mawazo ni tathmini, ni vigumu ungua tathmini hizo kutoka Muumba wa mawazo. Kwa sababu ufumbuzi ni rahisi kuangalia, wito wazi kuruhusu watafiti kupata ufumbuzi wote uwezekano wa ajabu ambayo bila kuanguka kwa njia ya nyufa kama wao tu kuchukuliwa ufumbuzi kutoka maprofesa maarufu.

Kwa mfano, pindi moja wakati wa mtu Netflix Tuzo kwa jina screen Simon Funk posted juu yake blog ufumbuzi uliopendekezwa msingi umoja thamani mtengano, mbinu kutoka algebra linear kwamba alikuwa na si kutumika hapo awali na washiriki wengine. Funk ya blog post ilikuwa wakati huo huo kiufundi na weirdly rasmi. Ilikuwa hii blog post kuelezea ufumbuzi mzuri au ilikuwa ni kupoteza muda? Nje ya mradi wazi wito, ufumbuzi ili kamwe wamepokea tathmini mbaya. Baada ya yote Simon Funk hakuwa profesa katika Cal Tech au MIT; alikuwa developer programu ambaye, wakati huo, alikuwa BackPacking kuzunguka New Zealand (Piatetsky 2007) . Kama alikuwa Emailed wazo hili na mhandisi katika Netflix, ni karibu shaka isingekuwa kuchukuliwa kwa uzito.

Kwa bahati nzuri, kwa sababu vigezo vya tathmini yalikuwa wazi na rahisi kutumia, ratings yake alitabiri walikuwa tathmini, na ilikuwa instantly wazi kwamba mbinu yake ilikuwa nguvu sana: yeye umeongezeka kwa nafasi ya nne katika mashindano, matokeo makubwa kutokana na kwamba timu nyingine alikuwa tayari kufanya kazi kwa miezi juu ya tatizo. Katika mwisho, sehemu ya mbinu Simon Funk ya zilitumiwa na karibu wote washindani kubwa (Bell, Koren, and Volinsky 2010) .

ukweli kwamba Simon Funk waliamua kuandika blog post kueleza mbinu yake, badala ya kujaribu kuitunza siri, pia unaeleza kwamba washiriki wengi katika Netflix Tuzo walikuwa si peke motisha kwa tuzo ya dola milioni. Badala yake, washiriki wengi pia walionekana kufurahia changamoto akili na jamii kwamba maendeleo karibu tatizo (Thompson 2008) , hisia kwamba mimi kutarajia watafiti wengi wanaweza kuelewa.

Netflix Tuzo ni mfano hai wa wito wazi. Netflix vinavyotokana swali kwa lengo maalum (utabiri wa movie ratings) na waliomba ufumbuzi kutoka kwa watu wengi. Netflix alikuwa na uwezo wa kutathmini ufumbuzi yote haya kwa sababu walikuwa rahisi kuthibitisha kuliko kujenga, na hatimaye Netflix ilichukua ufumbuzi bora. Next, mimi itabidi kuonyesha jinsi mbinu hii huo unaweza kutumika katika biolojia na sheria.