5.3.1 Netflix награда

Наградата Netflix използва открита покана да се предвиди кои филми хората ще харесват.

Най-добре познат Проектът открита покана е наградата Netflix. Netflix е онлайн филм под наем компания, а през 2000 г. стартира Cinematch, услуга, за да се препоръча филми на клиентите. Например, Cinematch да забележите, че сте харесали Star Wars и Империята отвръща на удара и след това препоръчваме да гледате Завръщането на джедаите. Първоначално Cinematch работи лошо. Но, в течение на много години, Cinematch продължи да подобри способността си да се предскаже какви филми клиенти ще се радват. До 2006 г. обаче напредък по Cinematch плато. Изследователите на Netflix се бяха опитали почти всичко, което те биха могли да се сетиш, но в същото време, те подозира, че има и други идеи, които могат да им помогнат да се подобри тяхната система. По този начин, те излязоха с това, което е в момента, радикално решение: открита покана.

Критична за евентуалния успех на наградата Netflix е как е проектирана на открита процедура, и този проект има важни уроци за това как отворен разговори може да се използва за социални изследвания. Netflix не просто изгасне неструктурирана искане за идеи, което е това, което много хора си представят, когато за първи път разгледа открита покана. По-скоро, Netflix, поставен ясен проблем с един прост критерии за оценка: те се справи с хората да използват набор от 100 милиона филмови рейтинги да се предскаже 3 милиона държани извън оценки (рейтинги, които потребителите са направили, но че Netflix не освободи). Всеки, който може да създаде алгоритъм, който може да се предскаже на 3 милиона, държани от оценките 10% по-добър от Cinematch ще спечели 1 милион долара. Това ясно и лесно да се прилагат критерии за оценка, сравняващи прогнозира рейтинги до държани от рейтингите-означаваше, че наградата Netflix е определен по такъв начин, че решения са по-лесни за да се провери, отколкото генерира; Оказа предизвикателството за подобряване Cinematch в проблем, подходящ за открита покана.

През октомври 2006 г., Netflix пусна набор от данни, съдържаща 100 милиона филмови рейтинги от около около 500 000 клиенти (ние ще разгледа последиците за неприкосновеността на личния живот на това съобщение за данни в глава 6). Данните за Netflix може да се концептуализира като огромна матрица, която е приблизително 500,000 клиенти от 20,000 филми. В рамките на тази матрица, е имало около 100 милиона оценки по скала от 1 до 5 звезди (Таблица 5.2). Предизвикателството е да се използват данните от станциите в матрицата, за да се предскаже на 3 милиона, държани от рейтингите.

Таблица 5.2: Схема на данни от наградата Netflix. Netflix освобождава около 100 милиона оценки (1 звезда до 5 звезди), предоставени от 500,000 клиенти на 20,000 филми. Целта на наградата Netflix е да се използват тези оценки да се предскаже, държани от рейтингите на 3 милиона филми, показани като "?". Прогнозираните рейтинги, представени от участници в наградата Netflix, бяха сравнени с държани от рейтингите. Ще обсъдим етичните въпроси около тази версия на данни в глава 6.
Movie 1 Movie 2 Movie 3 , , , Movie 20,000
Клиент 1 2 5 , ?
Клиент 2 2 ? , 3
Клиент 3 ? 2 ,
, , , , , , , ,
Клиент 500000 ? 2 , 1

Изследователи и хакери от цял свят са изготвени на предизвикателството, и до 2008 г. повече от 30,000 души са работили върху него (Thompson 2008) . В течение на конкурса, Netflix получил повече от 40000 предложените решения от повече от 5000 отбора (Netflix 2009) . Очевидно е, че Netflix не може да прочете и разбере всички тези предложени решения. Цялата работа се завтече гладко, обаче, тъй като решенията са лесно да се провери. Netflix може просто да има компютър за сравнение предсказаните рейтинги към държани от оценките от предварително определен показател (в частност показател те използва е корен квадратен от средната квадрат грешка). Именно тази способност за бързо оцени решения, които позволиха Netflix да приемат решения от всеки, който се оказа, че са важни, защото добрите идеи идват от някои изненадващи места. В действителност, печелившата разтвор се подава от екип започна от три изследователи, които не са имали предишен опит за изграждане на препоръка филм системи (Bell, Koren, and Volinsky 2010) .

Един красив аспект на наградата Netflix е, че той е активиран всички хора по света да имат тяхното решение оценен справедливо. Когато хората качени очакваното им рейтинги, те не трябва да качите своите академични познания, тяхната възраст, раса, пол, сексуална ориентация, или нищо за себе си. По този начин, прогнозира рейтингите на известен професор от Станфорд са третирани точно същите като тези от тийнейджър в спалнята си. За съжаление, това не е вярно в повечето социални изследвания. Това означава, че за повечето социални изследвания, оценка е много време и частично субективно. Така че, повечето изследователски идеи никога не са сериозно оценени, и когато идеите се оценяват, че е трудно да се отделят тези оценки от създателите на идеите. Тъй решения са лесни за да се провери, отворени покани позволяват на изследователите да имат достъп до всички потенциално чудесни решения, които биха могли да попаднат през пукнатините, ако те считат само решения от известни професори.

Например, в един момент по време на някой от Netflix награда с псевдонима Simon Funk е публикувал в блога си планирана решение въз основа на разлагане по особена стойност, подход от линейна алгебра, които не са били използвани преди това от други участници. блог пост Funk беше едновременно технически и странно неформално. Дали този блог пост, описващ едно добро решение, или че това е загуба на време? Извън проект открита покана, разтворът може никога да не са получили сериозна оценка. В края на краищата Simon Funk не е професор в Калифорнийския технологически или MIT; той е разработчик на софтуер, който, по това време, беше раница около Нова Зеландия (Piatetsky 2007) . Ако той е изпратен по имейл тази идея за инженер в Netflix, то почти със сигурност би не са били взети на сериозно.

За щастие, тъй като критериите за оценка бяха ясни и лесни за прилагане, неговите прогнозирани рейтинги бяха оценени, и това беше веднага ясно, че неговият подход е много мощен: той се изстреля до четвъртото място в конкурса, огромен резултат предвид факта, че другите отбори вече са били работи в продължение на месеци на проблема. В края на краищата, части подход Simon Funk бяха използвани от почти всички сериозни конкуренти (Bell, Koren, and Volinsky 2010) .

Фактът, че Саймън Funk избра да напише блог пост обяснява подхода си, вместо да се опитва да го запази в тайна, също показва, че много от участниците в наградата Netflix не са мотивирани единствено от наградата от един милион долара. Напротив, много от участниците също изглеждаха да се насладите на интелектуалното предизвикателство и общността, която развива около проблема (Thompson 2008) , чувствата, които очаквам много изследователи могат да разберат.

Наградата Netflix е класически пример на открита покана. Netflix, поставен въпрос с конкретна цел (предсказване филмови рейтинги) и стимулирани решения от много хора. Netflix е в състояние да оцени всички тези решения, защото те са по-лесно да се провери, отколкото да се създаде, и в крайна сметка Netflix взе най-доброто решение. На следващо място, аз ще ви покажа как същия този подход може да се използва в биологията и право.