5.3.1 Netflix Prize

Nagroda Netflix wykorzystuje otwarte zaproszenie do przewidzenia, które ludzie lubią filmy.

Najbardziej znanym projektem open połączenie jest Nagroda Netflix. Netflix jest online wypożyczalni filmów, aw 2000 rozpoczęła Cinematch, usługi polecić filmy dla klientów. Na przykład, Cinematch mogą zauważyć, że podoba Ci się Star Wars Imperium kontratakuje i Powrót, a następnie zaleca się oglądać Return of the Jedi. Początkowo Cinematch pracował źle. Ale w ciągu wielu lat, Cinematch nadal poprawić swoją zdolność do przewidywania jakie filmy klienci będą cieszyć. Do roku 2006, jednak postęp w Cinematch plateau. Naukowcy z Netflix próbował prawie wszystko mogliby pomyśleć, ale w tym samym czasie, ale podejrzewał, że były też inne pomysły, które mogą pomóc im poprawić swój system. Tak więc wymyślili, co było w momencie, radykalne rozwiązanie: otwarte zaproszenie.

Decydujące znaczenie dla ostatecznego sukcesu nagrody Netflix była jak otwarte zaproszenie zostało zaprojektowane, a ten projekt ma ważne lekcje dla jak otworzyć połączenia mogą być wykorzystywane do badań społecznych. Netflix nie tylko zgasić niestrukturalnych wniosek o idei, która jest, co wielu ludzi sobie wyobrazić, kiedy po raz pierwszy pod otwartą rozmowę. Raczej Netflix stanowiły wyraźny problem z prostym kryteria oceny: są kwestionowane ludzi do korzystania z zestawu 100 mln ocen filmowe przewidzieć 3 miliony ocen posiadanych-out (Ocen że użytkownicy już wykonane, ale to Netflix nie zwalnia). Każdy, kto może stworzyć algorytm, który mógłby przewidzieć 3 miliony ocen odstawionej 10% lepiej niż Cinematch by wygrać 1 milion dolarów. To jasne i łatwe do zastosowania kryteria oceny, porównanie przewidywanych ocen na utrzymywanych z oceny, sprawiły, że Nagroda Netflix został wrobiony w taki sposób, że rozwiązania są łatwiejsze do sprawdzenia, niż generować; Okazało wyzwanie poprawy Cinematch do problemu nadaje się do otwartej rozmowy.

W październiku 2006 roku ukazał się zbiór danych Netflix zawierający 100 milionów ocen filmowe od około 500,000 klientów (rozważymy implikacje prywatności tej wersji danych w rozdziale 6). Dane Netflix może być rozumiana jako ogromny matrycy, która wynosi około 500.000 klientów przez 20.000 filmów. W ramach tej matrycy, było około 100 milionów oceny w skali od 1 do 5 gwiazdek (tabela 5.2). Wyzwaniem było użycie obserwowanych danych w macierzy przewidzieć 3 miliony ocen posiadanych-out.

Tabela 5.2: Schematyczny danych z nagrody Netflix. Netflix wydała około 100 milionów Oceny (1 do 5 gwiazdek) dostarczonych przez klientów na 20.000 500.000 filmów. Celem nagrody Netflix był do korzystania z tych ocen przewidzieć odstawionej rankingi 3 miliony filmów, przedstawionych jako "?". Przewidywane oceny przedstawione przez uczestników nagrody Netflix zostały porównane z posiadanych out ocen. omówię kwestie etyczne wokół tej wersji danych w rozdziale 6.
Film 1 Film 2 film 3 , , , Film 20000
klient 1 2 5 , ?
klient 2 2 ? , 3
klient 3 ? 2 ,
, , , , , , , ,
klient 500000 ? 2 , 1

Naukowcy i hakerów na całym świecie zostały sporządzone na wysokości zadania, a do 2008 roku ponad 30.000 osób pracowało na niej (Thompson 2008) . W trakcie konkursu, Netflix otrzymała ponad 40.000 proponowanych rozwiązań z ponad 5000 zespołów (Netflix 2009) . Oczywiście, Netflix nie mógł odczytać i zrozumieć wszystkie te proponowane rozwiązania. Całość przebiegało sprawnie, jednak z powodu rozwiązania były łatwe do sprawdzenia. Netflix może po prostu komputer porównanie przewidywanych ocen do utrzymywanych z oceny przez wstępnie określony metrycznym (konkretnej metryki one wykorzystywane było pierwiastek z błędu średniego-kwadrat). To właśnie ta zdolność do szybkiej oceny rozwiązań, które umożliwiły Netflix przyjąć rozwiązania od wszystkich, które okazało się być ważne, ponieważ dobre pomysły pochodziły z kilku zaskakujących miejscach. W rzeczywistości, zwycięskie rozwiązanie zostało przedstawione przez zespół rozpoczął trzech naukowców, które nie miały wcześniejsze doświadczenia budowania systemów rekomendację filmowy (Bell, Koren, and Volinsky 2010) .

Jeden aspekt piękne nagrody Netflix jest włączony to wszyscy na świecie mają ich rozwiązanie ocenia sprawiedliwie. Kiedy ludzie przesłanych ich przewidywanych ocen, nie trzeba przesyłać swoje wyższe wykształcenie, wiek, rasę, płeć, orientację seksualną, lub coś o sobie. Zatem prognozowane wskaźniki znanego profesora Stanford byli traktowani dokładnie tak samo jak te z nastolatka w jej sypialni. Niestety, nie jest to prawda w większości badań społecznych. Oznacza to, że w większości badań społecznych, oceny jest bardzo czasochłonne i częściowo subiektywna. Tak, większość pomysłów badawczych nigdy poważnie nie oceniano, a gdy idee są oceniane, trudno jest oderwać te oceny od twórcy idei. Ponieważ rozwiązania są łatwe do sprawdzenia, otwarte rozmowy pozwalają naukowcom dostęp do wszystkich potencjalnie wspaniałych rozwiązań, które wchodzą przez szczeliny jeśli tylko rozważyć rozwiązania od znanych profesorów.

Na przykład, w pewnym momencie podczas kogoś Netflix Prize z pseudonimu Simon Funk pisał na swoim blogu proponowanego rozwiązania oparte na Rozkład według wartości osobliwych, podejście z algebry liniowej, które nie zostały wykorzystane wcześniej przez innych uczestników. Funk blogu był jednocześnie dziwnie techniczne i nieformalne. Czy ta blogu opisujący dobre rozwiązanie czy była to strata czasu? Poza otwartym projekcie połączenia, rozwiązanie może nigdy nie otrzymał poważną ocenę. Po tym wszystkim Simon Funk nie był profesorem w Cal Tech i MIT; był programistą, który w tym czasie był plecakiem po Nowej Zelandii (Piatetsky 2007) . Gdyby ten pomysł na e-maila inżynier w Netflix, to prawie na pewno nie były traktowane poważnie.

Na szczęście, ponieważ kryteria oceny były jasne i łatwe do zastosowania, jego przewidywane wskaźniki zostały ocenione, i było od razu jasne, że jego podejście było bardzo silne: on poszybował na czwarte miejsce w konkursie, ogromny wynik biorąc pod uwagę, że inne zespoły były już pracy przez kilka miesięcy na ten problem. W końcu, części podejścia Simon Funk były wykorzystywane przez praktycznie wszystkich poważnych konkurentów (Bell, Koren, and Volinsky 2010) .

Fakt, że Simon Funk wybrał napisać blogu wyjaśniając swoje podejście, a nie stara się utrzymać to w tajemnicy, ilustruje również, że wielu uczestników nagrody Netflix nie były motywowane wyłącznie przez miliona dolarów nagrody. Przeciwnie, wielu uczestników również wydawał się cieszyć wyzwanie intelektualne i społeczności, która rozwinęła się wokół problemu (Thompson 2008) , uczucia, że spodziewam się wielu badaczy może zrozumieć.

Nagroda Netflix jest klasycznym przykładem otwartego zaproszenia. Netflix postawione pytanie o konkretny cel (przewidywania ocen filmowe) oraz zamówione rozwiązania od wielu ludzi. Netflix był w stanie ocenić wszystkie te rozwiązania, ponieważ były one łatwiejsze do zweryfikowania niż tworzyć, a ostatecznie Netflix wybrał najlepsze rozwiązanie. Następnie, pokażę ci, jak to samo podejście może być stosowane w biologii i prawa.