5.3.1 Netflix Prize

Ang Netflix Prize gumagamit ng mga bukas na tawag sa mahuhulaan kung aling pelikula ang mga tao ay gusto.

Ang pinaka mahusay na kilala proyekto open tawag ay ang Netflix Prize. Netflix ay isang online movie rental kumpanya, at noong 2000 ito inilunsad Cinematch, isang serbisyo inirerekomenda pelikula sa mga customer. Halimbawa, maaaring mapansin Cinematch na nagustuhan mo Star Wars at Empire Strikes Back at pagkatapos ay pinapayo na pinapanood mo Pagbabalik ng Jedi. Sa una, Cinematch nagtrabaho mahina. Ngunit, sa kabuuan ng maraming mga taon, Cinematch patuloy na mapabuti ang kakayahan upang mahulaan kung ano ang pelikula mga customer ay mag-enjoy. Sa pamamagitan ng 2006, gayunpaman, pag-unlad sa Cinematch plateaued. Ang mga mananaliksik sa Netflix ay sinubukan halos lahat ng bagay na maaari nilang isipin, ngunit sa parehong oras, sila pinaghihinalaang na may mga iba pang mga ideya na maaaring makatulong sa kanila na mapabuti ang kanilang system. Kaya, sila ay dumating up sa kung ano ang, sa panahon, isang radikal na solusyon: isang bukas na tawag.

Kritikal sa wakas tagumpay ng Netflix Prize ay kung paano ang mga bukas na tawag ay naka-disenyo, at ito disenyo ay may mahahalagang aral para sa kung paano bukas tawag ay maaaring gamitin para sa mga social research. Netflix ay hindi lamang ilagay ang isang unstructured kahilingan para sa mga ideya, na kung saan ay kung ano ang maraming mga tao isipin kapag sila ay unang isaalang-alang ang isang bukas na tawag. Sa halip, Netflix posed isang malinaw problema sa isang simpleng pamantayan sa pagsusuri; sila'y hinamon ang mga tao na gumamit ng isang hanay ng mga 100 milyong mga rating ng pelikula upang mahulaan 3 milyong gaganapin-out ratings (ratings na ang mga gumagamit ay ginawa ngunit na Netflix ay hindi release). Kahit sino na maaaring lumikha ng isang algorithm na maaaring mahulaan ang 3 milyong gaganapin-out ratings 10% mas mahusay kaysa sa Cinematch nais manalo ng 1 million dollars. Ito malinaw at madaling mag-aplay na pamantayan sa pagsusuri-paghahambing ng hinulaang rating upang gaganapin-out ratings-sinadya na ang Netflix Prize ay naka-frame sa isang paraan na ang mga solusyon ay mas madali upang suriin sa bumuo; ito ay naka-ang hamon ng pagpapabuti Cinematch sa isang problema na angkop para sa isang bukas na tawag.

Noong Oktubre ng 2006, Netflix pinakawalan ng isang dataset naglalaman 100 milyong mga rating ng pelikula mula sa tungkol sa tungkol sa 500,000 mga customer (isasaalang-alang natin ang mga implikasyon privacy ng mga ito release data sa Kabanata 6). Ang Netflix data ay maaaring conceptualized bilang isang malaking matrix na humigit-kumulang 500,000 mga customer sa pamamagitan ng 20,000 mga pelikula. Sa loob ng matrix na ito, may mga tungkol sa 100 milyong mga rating sa isang sukatan mula 1 hanggang 5 bituin (Table 5.2). Ang hamon ay upang gamitin ang sinusunod data sa matrix upang mahulaan ang 3 milyong gaganapin-out ratings.

Table 5.2: Eskematiko ng data mula sa Netflix Prize. Netflix inilabas tungkol sa 100 milyong mga rating (1 star sa 5 bituin) na ibinigay sa pamamagitan ng 500,000 mga customer sa 20,000 mga pelikula. Ang layunin ng Netflix Prize ay upang gamitin ang mga rating upang mahulaan ang gaganapin-out rating ng 3 milyong mga pelikula, ipinapakita bilang "?". Nahulaang ratings na galing sa mga kalahok sa Netflix Prize ay inihambing sa gaganapin-out ratings. ako ay talakayin ang etikal isyu na pumapalibot ang data na ito sa release sa Chapter 6.
Movie 1 Movie 2 Movie 3 . . . Movie 20,000
customer 1 2 5 . ?
customer 2 2 ? . 3
customer 3 ? 2 .
. . . . . . . .
customer 500,000 ? 2 . 1

Mananaliksik at hackers sa buong mundo ay iguguhit sa ang hamon, at sa pamamagitan ng 2008 higit sa 30,000 mga tao ay nagtatrabaho sa mga ito (Thompson 2008) . Sa loob ng kurso ng paligsahan, Netflix nakatanggap ng higit sa 40,000 mga iminungkahing solusyon mula sa higit sa 5,000 mga koponan (Netflix 2009) . Nang walang alinlangan, Netflix ay hindi maaaring basahin at intindihin ang lahat ng mga ipinanukalang mga solusyon. Ang buong bagay ay tumakbo nang maayos, gayunpaman, dahil ang solusyon ay madaling upang suriin. Netflix ay maaaring lamang magkaroon ng isang computer ihambing ang hinulaang ratings sa gaganapin-out rating sa pamamagitan ng isang pre-tinukoy na sukatan (sa partikular na panukat na ginamit nila ay ang square root ng ang ibig sabihin-squared error). Ito ay ang kakayahan upang mabilis na suriin ng mga solusyon na paganahin ang Netflix upang tanggapin solusyon mula sa lahat, kung saan naka-out na maging mahalaga dahil magandang ideya ay dumating mula sa ilang mga kamangha-mangha mga lugar. Sa katunayan, ang panalong solusyon ay isinumite sa pamamagitan ng isang team na nagsimula sa pamamagitan ng tatlong mga mananaliksik na ay walang naunang karanasan gusali movie rekomendasyon systems (Bell, Koren, and Volinsky 2010) .

Isang magandang aspeto ng Netflix Prize ay na ito pinagana lahat ng tao sa mundo na magkaroon ng kanilang mga solusyon sinusuri nang walang kinikilingan. Kapag ang mga tao na-upload ang kanilang hinulaang ratings, hindi nila kailangang mag-upload ng kanilang mga pang-akademikong mga kredensyal, kanilang edad, lahi, kasarian, sekswal na oryentasyon, o anumang bagay tungkol sa kanilang sarili. Kaya, ang hinulaang ratings ng isang sikat na propesor mula sa Stanford ay ginagamot eksakto ang parehong bilang ang mga mula sa isang binatilyo sa kanyang kuwarto. Sa kasamaang palad, ito ay hindi totoo sa karamihan ng mga social research. Iyon ay, para sa karamihan ng mga social pananaliksik, pagsusuri ay napaka-ubos ng oras at bahagyang subjective. Dahil dito, karamihan pananaliksik mga ideya ay hindi seryosong sinusuri, at kapag ang mga ideya ay sinusuri, ito ay mahirap na baklasin mga pagsusuri mula sa lumikha ng mga ideya. Dahil solusyon ay madaling suriin, open tawag payagan ang mga mananaliksik na ang lahat ng mga potensyal na kamangha-manghang mga solusyon na ay mahulog sa pamamagitan ng bitak kung sila lamang ang itinuturing na solusyon mula sa sikat na professors.

Halimbawa, sa isang punto sa panahon ng Netflix Prize isang tao na may screen name Simon Funk post sa kanyang blog ng isang iminungkahing solusyon batay sa isang isahan halaga agnas, isang diskarte mula linear algebra na ay hindi pa ginagamit dati sa pamamagitan ng iba pang mga kalahok. blog post ni Funk ay sabay-sabay na teknikal at weirdly informal. Ay blog na ito post na naglalarawan ng isang mahusay na solusyon o ay ito isang pag-aaksaya ng oras? Sa labas ng isang bukas na proyekto na tawag, ang solusyon ay maaaring hindi kailanman nakatanggap ng malubhang pagsusuri. Matapos ang lahat Simon Funk ay hindi isang propesor sa Cal Tech o MIT; siya ay isang software developer na, noong panahong iyon, ay backpacking sa paligid ng New Zealand (Piatetsky 2007) . Kung siya ay nag-email sa ideya na ito sa isang engineer sa Netflix, ito halos tiyak ay hindi ay dadalhin sineseryoso.

Sa kabutihang palad, dahil ang pamantayan sa pagsusuri ay malinaw at madaling mag-aplay, ang kanyang hinulaang ratings ay sinusuri, at ito ay agad na malinaw na ang kanyang diskarte ay napakalakas; siya'y rocketed sa fourth place sa kompetisyon, isang kamangha-mangha resulta na ibinigay na iba pang mga koponan ay nai nagtatrabaho para sa buwan sa ang problema. Sa katapusan, mga bahagi ng Simon Funk diskarte ay ginagamit ng halos lahat ng malubhang mga kakumpitensya (Bell, Koren, and Volinsky 2010) .

Ang katotohanan na Simon Funk pinili upang magsulat ng isang blog post na nagpapaliwanag ng kanyang diskarte, sa halip na sinusubukan upang panatilihin itong lihim, ay naglalarawan din na maraming mga kalahok sa Netflix Prize ay hindi eksklusibo motivated sa pamamagitan ng ang milyong dolyar na premyo. Sa halip, maraming mga kalahok din tila upang tamasahin ang mga intelektwal na hamon at ang komunidad na binuo sa paligid ng problema (Thompson 2008) , ang mga damdamin na aking inaasahan maraming mga mananaliksik ay maaaring maunawaan.

Ang Netflix Prize ay isang klasikong halimbawa ng isang bukas na tawag. Netflix posed ng isang katanungan na may isang tiyak na layunin (predicting rating ng pelikula) at solicited solusyon mula sa maraming tao. Netflix ay magagawang upang pag-aralan ang lahat ng mga solusyon dahil sila ay mas madali upang i-verify kaysa sa lumikha, at sa huli Netflix pinili ang pinakamahusay na solusyon. Susunod, kukunin ko na ipakita sa iyo kung paano ito parehong diskarte ay maaaring gamitin sa biology at batas.