5.3.1 Netflix Cena

Tento překlad byl vytvořen na počítači. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.3.1 Netflix Cena

Netflix Cena využívá otevřenou výzvu předpovědět, jaké filmy se budou lidé rádi.

Nejznámější projekt Otevřená výzva je Netflix cena. Netflix je online film půjčovna, av roce 2000 zahájila Cinematch, službu se Vám filmy zákazníkům. Například Cinematch všimnout, že se vám líbil Star Wars a Říše se pomstí a pak doporučujeme sledovat Návratu Jediho. Zpočátku Cinematch pracoval špatně. Ale v průběhu mnoha let, Cinematch i nadále zlepšovat svou schopnost předvídat, jaké filmy by zákazníci těšit. Do roku 2006 však pokrok v Cinematch plateau. Výzkumníci na Netflix se snažil skoro vše, co by mohli myslet, ale zároveň, že podezření, že existují i jiné nápady, které by mohly pomoci ke zlepšení jejich systém. Tak, oni přišli s tím, co bylo v té době, radikální řešení: otevřenou výzvu.

Rozhodující pro eventuální úspěch Netflix ceny bylo, jak byla otevřená výzva navržen, a tato konstrukce má významné poučení pro to, jak open hovory mohou být použity pro sociální výzkum. Netflix nebyl jen vyhánění nestrukturované žádost o nápady, což je to, co mnozí lidé si představit, když nejprve zvážit otevřenou výzvu. Spíše Netflix představuje jasný problém s jednoduchým hodnotících kritérií: oni napadal lidi, aby používali sadu 100 milionů hodnocení filmů předvídat 3 miliony držených-out hodnocení (stanovení sazeb že uživatelé si provedeny, ale že Netflix nepustil). Každý, kdo by mohl vytvořit algoritmus, který by mohl předpovídat na 3 miliony držených-out rating 10% lepší než Cinematch by vyhrát 1 milion dolarů. Toto jasné a snadno použitelné hodnotící kritéria, porovnávání predikovaných ratingy držených-out hodnocení, znamenala, že Netflix cena byla koncipována tak, aby řešení jsou snadněji kontrolovat než vytvářet; Ukázalo úkol zlepšit Cinematch na problém vhodné pro otevřené výzvy.

V říjnu roku 2006, Netflix uvolní datovou sadu obsahující 100 milionů hodnocení filmů z asi o 500 tisíc zákazníků (budeme zvažovat důsledky ochraně osobních údajů v této verzi údajů v kapitole 6). Data Netflix lze pojímat jako obrovský matrice, která je přibližně 500.000 zákazníků o 20.000 filmů. V rámci této matice, tam bylo asi 100 milionů klasifikace na stupnici od 1 do 5 hvězdiček (tabulka 5.2). Výzvou bylo využít zjištěné údaje v matici předvídat 3 miliony držených-out hodnocení.

Tabulka 5.2: Schematické dat z Netflix Prize. Netflix uvolní asi 100 milionů ratings (1 až 5 hvězdiček) poskytované 500.000 zákazníků na 20.000 filmů. Cílem Netflix ceny bylo použití těchto hodnocení předvídat držené-out rating 3 miliony filmů, zobrazené jako "?". Předpovídané hodnocení předložené účastníky Netflix ceny byly porovnány s držených-out hodnocení. I bude diskutovat o etické otázky obklopující tuto verzi údajů v kapitole 6.
	film 1	Movie 2	Movie 3	, , ,	film 20.000
zákazník 1	2	5		,	?
zákazník 2		2	?	,	3
zákazník 3		?	2	,
, , ,	,	,	,	,	,
zákazník 500000	?		2	,	1

Výzkumní pracovníci a hackeři na celém světě byly čerpány na tuto výzvu, a do roku 2008 bylo více než 30.000 lidí na tom pracuje (Thompson 2008) . V průběhu soutěže, Netflix obdržela více než 40.000 navrhovaná řešení z více než 5000 týmů (Netflix 2009) . Je zřejmé, že Netflix nemohl přečíst a pochopit všechny tyto návrhy řešení. Celá věc hladce, nicméně, protože řešení bylo snadné kontrolovat. Netflix mohl mít počítač porovnat predikované ratingy držených-out hodnocení podle předem specifikované metrického (na konkrétních metrických, že byla použita druhá odmocnina chyby střední-kvadrát). Byla to právě tato schopnost rychle vyhodnotit řešení, které umožnily Netflix přijmout řešení od každého, což se ukázalo být důležité, protože dobré nápady pocházejí z několika překvapivých místech. Ve skutečnosti, vítězný roztok byl předložen týmem začal třemi výzkumníky, kteří měli žádné předchozí zkušenosti stavebních doporučení film systémy (Bell, Koren, and Volinsky 2010) .

Jednoho krásného aspekt Netflix ceny je to, že umožnil každému na světě, aby jejich řešení vyhodnocena spravedlivě. Když lidé nahrál jejich předvídaných hodnocení, nepotřebovali nahrát své akademické pověření, jejich věk, rasu, pohlaví, sexuální orientaci, nebo něco o sobě. To znamená, že předpovídané rating známého profesora z Stanfordu byly ošetřeny naprosto stejné jako ty z teenager v její ložnici. Bohužel, toto není pravda, ve většině sociálního výzkumu. To znamená, že pro většinu sociálního výzkumu, hodnocení je velmi časově náročné a částečně subjektivní. Takže, většina vědecké myšlenky se nikdy vážně vyhodnoceny, a pokud jsou hodnoceny myšlenky, je těžké oddělit ty hodnocení od tvůrce myšlenky. Vzhledem k tomu, řešení je snadné zjistit, otevřené výzvy umožňují vědcům přístup ke všem potenciálně skvělé řešení, které by spadají přes trhliny v případě, že vezmou v úvahu pouze řešení od známých profesorů.

Například u jednoho bodu během někoho Netflix Cenu s názvem obrazovky Simon Funk zveřejněny na svém blogu navrhovaného řešení vychází z dekompozice singulární hodnoty, což je přístup z lineární algebry, které nebyly dříve používané jinými účastníky. Funk blog post byl současně technické a podivně neformální. Byl tento blog post popisující dobré řešení, nebo to byla ztráta času? Mimo projektu otevřeného hovoru, roztok možná nikdy obdrželi vážné vyhodnocení. Koneckonců Simon Funk nebyl profesor na Cal Tech nebo MIT; byl vývojář softwaru, který v té době byl backpacking kolem Nového Zélandu (Piatetsky 2007) . Kdyby e-mailem tuto myšlenku inženýra na Netflix, téměř jistě by nebyl brán vážně.

Naštěstí, protože hodnotící kritéria byly jasné a snadno použitelné, jeho predikované hodnocení byly vyhodnoceny a bylo okamžitě jasné, že jeho přístup byl velmi silný: on prudce na čtvrté místo v soutěži, ohromný výsledek vzhledem k tomu, že ostatní týmy už byl pracoval několik měsíců na problém. Na konci části přístupu Simon Funk byly použity prakticky všechny vážné konkurenty (Bell, Koren, and Volinsky 2010) .

Skutečnost, že Simon Funk rozhodl se psát blogu vysvětluje svůj přístup, spíše než se snažit udržet v tajnosti, také ukazuje, že mnozí účastníci Netflix ceny nebyly výlučně motivováno milionů dolarů cenu. Naopak, mnoho účastníků také Zdálo se, že nyní intelektuální výzvu a komunitu, která vyvinula řešení problému (Thompson 2008) , pocity, že myslím, že mnoho výzkumníků může pochopit.

Netflix cena je klasickým příkladem otevřené výzvy. Netflix položil otázku s konkrétní cíl (předpovídání hodnocení filmů) a získával řešení od mnoha lidí. Netflix byl schopen vyhodnotit všechna tato řešení, protože se snadněji ověřit, než vytvořit, a nakonec Netflix vybral to nejlepší řešení. Dále ukážu ti, jak lze tuto Stejný přístup používá v biologii a práva.