5.3.1 Netflix Prize

The Netflix Prize notar opinn símtal til að spá sem kvikmyndir fólk verður eins.

Vel þekkt opið símtal er Netflix-verðlaunin. Netflix er kvikmyndaleigufyrirtæki og árið 2000 hóf hún Cinematch, þjónustu til að mæla með kvikmyndum til viðskiptavina. Til dæmis gæti Cinematch tekið eftir því að þér líkar við Star Wars og The Empire Strikes Back og mælum svo með að þú horfir á Return of the Jedi . Upphaflega vann Cinematch illa. En í mörg ár hélt það áfram að bæta getu sína til að spá fyrir um hvaða kvikmyndir viðskiptavinir myndu njóta. Árið 2006 höfðu framfarir á Cinematch þó verið áberandi. Rannsakendur Netflix höfðu reynt nánast allt sem þeir gætu hugsað um, en á sama tíma grunuðu þeir fyrir því að það væru aðrar hugmyndir sem gætu hjálpað þeim að bæta kerfið sitt. Þannig komu þeir upp með það sem var á þeim tíma róttæka lausn: opið símtal.

Mikilvægt að ná árangri Netflix-verðlaunanna var hvernig opið símtal var hannað og þessi hönnun hefur mikilvæga lærdóm fyrir því hvernig hægt er að nota opna símtöl til félagsrannsókna. Netflix lék ekki bara óbeinan beiðni um hugmyndir, en það er það sem margir ímynda sér þegar þeir telja að opna símtal sé fyrst. Netflix lagði skýrt vandamál með einföldum matsaðferðum: Þeir skoruðu fólk á að nota 100 milljón kvikmyndatölur til að spá fyrir um 3 milljónir haldin einkunnir (einkunnir sem notendur höfðu búið til en Netflix lék ekki). Fyrsti maðurinn til að búa til reiknirit sem spáði 3 milljón haldin einkunnunum 10% betri en Cinematch myndi vinna milljón dollara. Þetta skýrt og auðvelt að beita matsferli - að bera saman fyrirhugaðar einkunnir með hömluðum einkunnir - þýddi að Netflix-verðlaunin voru gerð þannig að lausnir voru auðveldara að athuga en búa til; Það varð áskorunin um að bæta Cinematch í vanda sem hentaði fyrir opið símtal.

Í október 2006 gaf Netflix út gagnapakkann sem inniheldur 100 milljón kvikmyndatölur frá um það bil 500.000 viðskiptavinum (við munum líta á persónuverndaráhrif þessarar útgáfu í kafla 6). Netflix gögnin geta verið skilgreind sem gríðarstór fylki sem er um 500.000 viðskiptavinir með 20.000 kvikmyndum. Innan þessa fylkis voru um 100 milljón einkunnir á kvarða frá einum til fimm stjörnum (tafla 5.2). Áskorunin var að nota gögnin sem komu fram í fylkinu til að spá fyrir um 3 milljónir hagnaðarviðmiðana.

Tafla 5.2: Skýringar á gögnum frá Netflix verðlaununum
Kvikmynd 1 Kvikmynd 2 Kvikmynd 3 ... Kvikmynd 20.000
Viðskiptavinur 1 2 5 ... ?
Viðskiptavinur 2 2 ? ... 3
Viðskiptavinur 3 ? 2 ...
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
Viðskiptavinur 500.000 ? 2 ... 1

Vísindamenn og tölvusnápur um heiminn voru dregin að áskoruninni og árið 2008 voru meira en 30.000 manns að vinna á því (Thompson 2008) . Í keppninni fékk Netflix meira en 40.000 fyrirhugaðar lausnir frá meira en 5.000 liðum (Netflix 2009) . Augljóslega gat Netflix ekki lesið og skilið allar þessar fyrirhugaðar lausnir. Allt þetta hljóp vel, þó að lausnirnar væru auðvelt að athuga. Netflix gæti bara haft tölvu í samanburði við fyrirhugaða einkunnir með úthlutað mati með því að nota fyrirframgreindan mæligildi (tiltekið mæligildi sem þeir notuðu var fjórðungur rótar meðalhyrningsins). Það var þessi hæfileiki til að meta lausnir sem hófu Netflix að samþykkja lausnir frá öllum, sem reyndust mikilvægt vegna þess að góðar hugmyndir komu frá einhverjum á óvartum stöðum. Í raun var aðlaðandi lausnin lögð fram af hópi sem var byrjaður af þremur vísindamönnum sem höfðu engar fyrri reynslu af að byggja upp kvikmyndaráðgjöfarkerfi (Bell, Koren, and Volinsky 2010) .

Einn fallegur þáttur í Netflix-verðlaununum er að það gerði virðingu fyrir öllum fyrirhuguðum lausnum. Það er þegar fólk hlaut fyrirhugaða einkunnir, þurftu þeir ekki að hlaða upp fræðilegum persónuskilríkjum sínum, aldri, kynþáttum, kyni, kynhneigð eða eitthvað um sjálfa sig. Spáð einkunnir fræga prófessor frá Stanford voru meðhöndluð nákvæmlega eins og þau frá unglinga í svefnherbergi hennar. Því miður er þetta ekki satt í flestum félagsrannsóknum. Það er, fyrir flestar félagsrannsóknir, mat er mjög tímafrekt og að hluta til huglægt. Þannig eru flestar rannsóknarhugmyndir aldrei metnar alvarlega og þegar hugmyndir eru metnar er erfitt að losna við þessar matanir frá höfundum hugmyndanna. Opna símtalaverkefni, hins vegar, hafa greiðan og sanngjarnan mat svo að þeir geti uppgötvað hugmyndir sem gætu verið saknaðir annars staðar.

Til dæmis, á einum tímapunkti á Netflix-verðlauninu, lagði einhver með skjánafnið Simon Funk á bloggið sitt fyrirhugaða lausn á grundvelli eintölu gildi niðurbrot, nálgun frá línulegri algebru sem ekki hafði verið notuð áður af öðrum þátttakendum. Blogg blogg Funk var samtímis tæknilega og skrýtið óformlegt. Var þetta blogg að lýsa góðri lausn eða var það sóun á tíma? Utan opið símtala gæti lausnin aldrei borist alvarleg mat. Eftir allt saman, Simon Funk var ekki prófessor við MIT; Hann var hugbúnaðarframkvæmdaraðili sem á þeim tíma var að ferðast um Nýja Sjáland (Piatetsky 2007) . Ef hann hefði sent þessari hugmynd til verkfræðings hjá Netflix hefði það næstum vissulega ekki verið lesið.

Sem betur fer, vegna þess að matsviðmiðin voru skýr og auðvelt að beita, voru spáð einkunnir hans metin og það var þegar í stað ljóst að nálgun hans var mjög öflugur: hann rakst í fjórða sæti í keppninni, gríðarlegt afleiðing af því að önnur lið höfðu þegar verið að vinna í mörg ár um vandamálið. Að lokum voru hlutar nálgun hans notuð af nánast öllum alvarlegum keppinautum (Bell, Koren, and Volinsky 2010) .

Sú staðreynd að Simon Funk kaus að skrifa blogg sem útskýrði nálgun hans, frekar en að reyna að halda henni leynt, sýnir einnig að margir þátttakendur í Netflix verðlaunin voru ekki eingöngu áhugasamir af milljónum dala. Frekar virtust margir þátttakendur einnig njóta vitsmunalegrar áskorunar og samfélags sem þróaðist í kringum vandamálið (Thompson 2008) , tilfinningar sem ég býst við að margir vísindamenn geti skilið.

Netflix-verðlaunin er klassískt dæmi um opið símtal. Netflix lagði fram spurningu með sérstöku markmiði (spá kvikmyndamat) og leitað lausna frá mörgum. Netflix gat metið allar þessar lausnir vegna þess að þeir voru auðveldara að athuga en að búa til og að lokum tók Netflix besta lausnin. Næst mun ég sýna þér hvernig þessi sömu nálgun er hægt að nota í líffræði og lögum og án milljónarverðlauna.