5.3.1 Premio Netflix

Questa traduzione è stato creato da un computer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.3.1 Premio Netflix

Il Premio Netflix utilizza invito aperto per predire quali film la gente piacerà.

Il progetto invito aperto più noto è il premio Netflix. Netflix è una società di noleggio film online, e nel 2000 ha lanciato Cinematch, un servizio di raccomandare i film ai clienti. Ad esempio, Cinematch potrebbe notare che ti è piaciuto di Star Wars e scioperi Impero Indietro e quindi consigliamo che si guarda Il ritorno dello Jedi. Inizialmente, Cinematch ha funzionato male. Ma, nel corso di molti anni, Cinematch ha continuato a migliorare la sua capacità di prevedere ciò che i film clienti godere. Entro il 2006, tuttavia, i progressi sul Cinematch plateaued. I ricercatori della Netflix avevano provato praticamente tutto quello che potevano pensare, ma, allo stesso tempo, hanno sospettato che ci fossero altre idee che potrebbero contribuire a migliorare il loro sistema. Così, si avvicinò con quello che era, al momento, una soluzione radicale: un invito aperto.

Fondamentale per il successo finale del Premio Netflix era come il bando è stato progettato, e questo disegno ha lezioni importanti su come le chiamate aperto può essere utilizzato per la ricerca sociale. Netflix non ha solo messo fuori una richiesta non strutturato per le idee, che è quello che molte persone immaginano quando considerano prima un invito aperto. Piuttosto, Netflix ha posto un problema chiaro con un semplice criteri di valutazione: hanno sfidato le persone ad utilizzare un set di 100 milioni di rating dei film di prevedere 3 milioni di voti detenuti-out (valutazioni che gli utenti avevano fatto, ma che Netflix non ha rilasciato). Chiunque potrebbe creare un algoritmo che potrebbe prevedere i 3 milioni di voti detenuti-out il 10% in più rispetto Cinematch avrebbe vinto 1 milione di dollari. Questa chiara e facile da applicare criteri di valutazione-confrontando rating prevede che detenuti-out rating a fatto sì che il Premio Netflix è stato inquadrato in modo tale che le soluzioni sono più facili da controllare che generare; si è scoperto la sfida di migliorare Cinematch in un problema adatto a un invito aperto.

Nel mese di ottobre del 2006, Netflix ha rilasciato un set di dati contenente 100 milioni di feedback dei film da circa circa 500.000 clienti (si prenderà in considerazione le implicazioni sulla privacy di questa release di dati nel Capitolo 6). I dati di Netflix può essere concettualizzata come un enorme matrice che è di circa 500.000 clienti da 20.000 film. All'interno di questa matrice, ci sono stati circa 100 milioni di valutazioni su una scala da 1 a 5 stelle (Tabella 5.2). La sfida era quella di utilizzare i dati osservati nella matrice di prevedere i 3 milioni di voti detenuti-out.

Tabella 5.2: Schema dei dati del Premio Netflix. Netflix ha rilasciato circa 100 milioni di feedback (1 stella a 5 stelle) forniti da 500.000 clienti su 20.000 film. L'obiettivo del Premio Netflix è stato quello di usare queste valutazioni per prevedere i feedback detenuti-out di 3 milioni di film, indicato come "?". rating previsti presentati dai partecipanti al Premio Netflix sono stati confrontati con i feedback detenuti-out. Vorrei discutere le questioni etiche che circondano questa versione dei dati nel capitolo 6.
	film 1	Movie 2	Movie 3	. . .	film 20.000
Cliente 1	2	5		.	?
Cliente 2		2	?	.	3
clienti 3		?	2	.
. . .	.	.	.	.	.
clienti 500.000	?		2	.	1

I ricercatori e gli hacker di tutto il mondo sono stati elaborati alla sfida, ed entro il 2008 più di 30.000 persone sono state lavorando su di esso (Thompson 2008) . Nel corso della gara, Netflix ha ricevuto più di 40.000 soluzioni proposte da più di 5.000 squadre (Netflix 2009) . Ovviamente, Netflix non riusciva a leggere e comprendere tutte queste soluzioni proposte. Il tutto è andato bene, però, perché le soluzioni erano facili da controllare. Netflix potrebbe semplicemente avere un computer confrontare i feedback previsto per i feedback detenute da una metrica (la particolare metrica hanno usato era la radice quadrata dell'errore quadratico medio) pre-specificato. E 'stata questa capacità di valutare rapidamente le soluzioni che hanno permesso Netflix ad accettare soluzioni da parte di tutti, che si è rivelata importante perché le buone idee provenivano da alcuni luoghi sorprendenti. In effetti, la soluzione vincente è stata presentata da un team iniziato da tre ricercatori che non avevano sistemi di raccomandazione film esperienza nella costruzione di precedenti (Bell, Koren, and Volinsky 2010) .

Una bella aspetto del Premio Netflix è che attivato tutti nel mondo ad avere la loro soluzione valutato in modo equo. Quando la gente ha caricato le loro valutazioni previste, non hanno bisogno di caricare le loro credenziali accademiche, la loro età, razza, sesso, orientamento sessuale, o nulla su di se. Pertanto, le valutazioni predetti di un noto professore Stanford stati trattati esattamente gli stessi di quelli da un adolescente nella sua camera. Purtroppo, questo non è vero in più ricerca sociale. Cioè, per la maggior parte ricerca sociale, la valutazione è molto tempo e parzialmente personale. Così, la maggior parte delle idee di ricerca non sono mai seriamente valutati, e quando le idee sono valutate, è difficile staccarsi tali valutazioni da parte del creatore delle idee. Perché le soluzioni sono facili da controllare, inviti aperti permettono ai ricercatori di accedere a tutte le soluzioni potenzialmente meravigliosi che ricadrebbero attraverso le fessure se prese in considerazione solo le soluzioni di professori famosi.

Ad esempio, a un certo punto durante il Premio Netflix qualcuno con il nome della schermata Simon Funk pubblicato sul suo blog una soluzione proposta basata su una decomposizione in valori singolari, un approccio da algebra lineare, che non era stato usato in precedenza da altri partecipanti. post sul blog di Funk era allo stesso tempo tecnica e stranamente informali. È stato questo post del blog descrivendo una buona soluzione o era una perdita di tempo? Al di fuori di un progetto open call, la soluzione potrebbe non aver ricevuto valutazione seria. Dopo tutto Simon Funk non era un professore al Cal Tech o MIT; egli era uno sviluppatore di software che, al momento, è stato ami viaggiare in Nuova Zelanda (Piatetsky 2007) . Se avesse mandato questa idea di un ingegnere a Netflix, che quasi certamente non sarebbe stato preso sul serio.

Per fortuna, perché i criteri di valutazione erano chiare e facili da applicare, i suoi feedback predetti sono stati valutati, ed è stato subito chiaro che il suo approccio era molto potente: egli vertiginosamente al quarto posto al concorso, un enorme risultato dato che le altre squadre erano già stati lavorare per mesi sul problema. Alla fine, le parti del approccio di Simon Funk sono stati utilizzati da quasi tutti i concorrenti seri (Bell, Koren, and Volinsky 2010) .

Il fatto che Simon Funk ha scelto di scrivere un post sul blog che spiega il suo approccio, piuttosto che cercare di mantenere il segreto, illustra anche che molti partecipanti al Premio Netflix non erano motivati esclusivamente dal premio di un milione di dollari. Piuttosto, molti partecipanti sembravano anche per godere la sfida intellettuale e la comunità che si è sviluppato intorno al problema (Thompson 2008) , i sentimenti che mi aspetto molti ricercatori possono capire.

Il Premio Netflix è un classico esempio di un invito aperto. Netflix ha posto una domanda con un obiettivo specifico (previsione rating dei film) e sollecitato soluzioni da molte persone. Netflix è stato in grado di valutare tutte queste soluzioni, perché erano più facili da verificare che creare, e in ultima analisi, Netflix scelto la soluzione migliore. Avanti, ti faccio vedere come questo stesso approccio può essere utilizzato in biologia e diritto.