5.3.1 Netflix Prize

O Premio Netflix usa a chamada aberta para prever cales películas a xente gusta.

O proxecto invitación aberta máis coñecido é o Premio Netflix. Netflix é unha empresa de aluguer de películas en liña, e en 2000 lanzou Cinematch, un servizo para recomendar películas para clientes. Por exemplo, Cinematch pode notar que lle gusta de Star Wars e folgas Imperio Volver e logo, recomendamos que ver O Retorno do Jedi. Inicialmente, Cinematch traballou mal. Pero, ao longo de moitos anos, Cinematch continuou a mellorar a súa capacidade de prever o que as películas clientes gustaría recibir. En 2006, con todo, o progreso na Cinematch estabilizou. Os investigadores de Netflix intentara practicamente todo o que podería pensar, pero, ao mesmo tempo, sospeitaron que había outras ideas que poden axudalos a mellorar o seu sistema. Así, eles viñeron para arriba co que era, na época, unha solución radical: unha invitación aberta.

Fundamentais para o eventual éxito de Netflix Prize foi como a chamada aberta foi deseñado, e este proxecto ten leccións importantes para que as chamadas aberto pode ser usado para a investigación social. Netflix non só pór para fóra unha proposta de non-estruturados de ideas, que é o que moitas persoas imaxinan cando considerar en primeiro lugar unha chamada aberta. Pola contra, Netflix presentou un problema claro cun criterio de avaliación sinxela: eles desafiaron a xente a usar un conxunto de 100 millóns de clasificacións de películas de prever 3 millóns de avaliacións realizadas-out (valoración que os usuarios tiñan feito, pero que a Netflix non divulgou). Calquera que podería crear un algoritmo que podería prever os 3 millóns de avaliacións realizadas-out do 10% mellor que Cinematch ía gañar 1 millón de dólares. Esta claro e doado de aplicar criterios de avaliación, comparando clasificacións previstas para mantidos fóra clasificacións de-significaba que Netflix Prize foi enmarcado de tal forma que as solucións son máis fáciles de comprobar que xeran; descubriuse o desafío de mellorar Cinematch nun problema axeitado para unha chamada aberta.

En outubro de 2006, a Netflix lanzou un conxunto de datos que contén 100 millóns de clasificacións de películas de aproximadamente uns 500.000 clientes (imos considerar as implicacións de privacidade desta versión datos no capítulo 6). Os datos de Netflix pode conceptuada como unha enorme matriz que é de aproximadamente 500.000 clientes por 20.000 películas. Dentro desta matriz, había aproximadamente 100 millóns de avaliacións nunha escala de 1 a 5 estrelas (Táboa 5.2). O desafío foi a utilización dos datos observados na matriz para prever os 3 millóns de clasificacións mantidos fóra.

Táboa 5.2: Esquema de datos do Premio Netflix. Netflix lanzou uns 100 millóns Clasificacións (1 a 5 estrelas) proporcionados por 500.000 clientes en 20.000 películas. O obxectivo do Premio Netflix foi usar esas clasificacións para prever as clasificacións realizadas-out de 3 millóns de películas, presentados como "?". clasificacións previstas presentados polos participantes no Premio Netflix foron comparados coas avaliacións realizadas-out. Vou discutir as cuestións éticas que rodean esta versión datos no Capítulo 6.
filme 1 movie 2 filme 3 . . . filme 20.000
cliente 1 2 5 . ?
cliente 2 2 ? . 3
cliente 3 ? 2 .
. . . . . . . .
cliente 500.000 ? 2 . 1

Investigadores e hackers de todo o mundo foron atraídos para o reto, e ata 2008 máis de 30.000 persoas estaban traballando (Thompson 2008) . Ao longo da competición, Netflix recibiu máis de 40.000 solucións propostas a partir de máis de 5.000 equipos (Netflix 2009) . Obviamente, a Netflix non podería ler e entender todas estas solucións propostas. A cousa toda foi sen problemas, con todo, porque as solucións eran fáciles de comprobar. Netflix podería só ter un ordenador comparar as avaliacións previstas para os ratings mantidos por unha métrica (métrica particular, que utilizaban foi a raíz cadrada do erro cuadrático medio) pre-especificado. Foi esa capacidade de avaliar rapidamente solucións que permitiron Netflix para aceptar solucións de todo, o que resultou ser importante porque boas ideas viñeron de algúns lugares sorprendentes. De feito, a solución gañadora foi presentado por un equipo comezou por tres investigadores que non tiñan sistemas de recomendación de películas anteriores experiencia de construción (Bell, Koren, and Volinsky 2010) .

Un aspecto bonito do Premio Netflix é que permitiu que todos no mundo a ter a súa solución avaliado de forma xusta. Cando a xente cargado súas clasificacións establecidas, non precisan facer a carga das súas credenciais académicas, a súa idade, raza, sexo, orientación sexual, ou algo sobre si mesmos. Así, a valoración previstas dun famoso profesor de Stanford foron tratados exactamente o mesmo que os de un adolescente no seu cuarto. Por desgraza, isto non é certo na maioría das enquisas sociais. Isto é, para a maioría investigación social, a avaliación é moi lento e parcialmente subxectiva. Así, a maioría das ideas de investigación nunca son avaliadas en serio, e cando as ideas son avaliados, é difícil separar estas avaliacións do creador das ideas. Como as solucións son fáciles de comprobar, as chamadas abertas permiten aos investigadores acceder a todas as solucións potencialmente marabillosas que caen a través das fendas se eles só considerou solucións de profesores famosos.

Por exemplo, nun punto durante a alguén Netflix Prize co nome de pantalla Simon Funk publicou no seu blog unha proposta de solución baseada nunha descomposición en valores singulares, unha visión de álxebra lineal que non fora utilizado anteriormente por outros participantes. post do Funk era á vez técnica e estrañamente informal. Foi este post describindo unha boa solución é foi unha perda de tempo? Do lado de fóra de un proxecto de chamada aberta, a solución podería nunca recibir unha avaliación seria. Despois Simon Funk non era un profesor da Cal Tech ou MIT; era un desenvolvedor de software que, no momento, foi camiños ao redor de Nova Celandia (Piatetsky 2007) . Se tiña enviado esta idea para un enxeñeiro de Netflix, que case certamente non sería levado a serio.

Afortunadamente, xa que os criterios de avaliación eran claras e fáciles de aplicar, os seus índices previstos foron avaliadas, e foi inmediatamente claro que a súa visión era moi poderoso: el disparou ao cuarto posto na competición, un tremendo resultado, dado que outros equipos xa foran traballar desde hai meses sobre o problema. Ao final, partes da visión de Simon Funk foron usados ​​por practicamente todos os competidores serios (Bell, Koren, and Volinsky 2010) .

O feito de que Simon Funk escolleu para escribir un post explicando a súa visión, en vez de tratar de manter isto en segredo, tamén ilustra que moitos participantes no Premio Netflix non foron exclusivamente motivada polo premio de un millón de dólares. Pola contra, moitos participantes tamén parecía gozar do desafío intelectual e da comunidade que se desenvolveu en torno ao problema (Thompson 2008) , sentimentos que eu esperar moitos investigadores poden entender.

A Netflix Prize é un exemplo clásico dun convite aberto. Netflix fixo unha pregunta cun obxectivo específico (previsión de clasificacións de películas) e solicitou solucións de moitas persoas. Netflix soubo valorar todas esas solucións, porque eran máis fáciles de comprobar que crear, e finalmente Netflix escolleu a mellor solución. Logo, eu vou lle amosar como esa mesma visión pode ser usada en bioloxía e dereito.