5.3.1 नेटफ्लिक्स पुरस्कार

नेटफ्लिक्स पुरस्कार भविष्यवाणी करने के लिए जो फिल्में लोगों को पसंद आएगा ओपन कॉल उपयोग करता है।

सबसे प्रसिद्ध ओपन कॉल प्रोजेक्ट नेटफ्लिक्स पुरस्कार है। नेटफ्लिक्स एक ऑनलाइन मूवी रेंटल कंपनी है, और 2000 में इसने सिनेमाघरों को लॉन्च किया, जो कि ग्राहकों को फिल्मों की सिफारिश करने के लिए एक सेवा है। उदाहरण के लिए, सिनेमैच ने देखा होगा कि आपको स्टार वार्स और द एम्पायर स्ट्राइक्स बैक पसंद आया और फिर अनुशंसा करते हैं कि आप जेडी की वापसी देखें। प्रारंभ में, सिनेमैच खराब काम करता था। लेकिन, कई सालों के दौरान, यह भविष्यवाणी करने की अपनी क्षमता में सुधार जारी रखता है कि ग्राहक किस फिल्म का आनंद लेंगे। 2006 तक, हालांकि, सिनेमैच पर प्रगति ने पठार किया था। नेटफ्लिक्स के शोधकर्ताओं ने काफी कुछ करने की कोशिश की थी, लेकिन साथ ही, उन्हें संदेह था कि अन्य विचार भी थे जो उन्हें अपने सिस्टम में सुधार करने में मदद कर सकते हैं। इस प्रकार, वे उस समय के साथ आए, जो एक कट्टरपंथी समाधान था: एक खुली कॉल।

नेटफ्लिक्स पुरस्कार की अंतिम सफलता के लिए महत्वपूर्ण था कि खुली कॉल कैसे डिज़ाइन की गई थी, और इस डिज़ाइन में महत्वपूर्ण सबक हैं कि सामाजिक शोध के लिए खुली कॉल का उपयोग कैसे किया जा सकता है। नेटफ्लिक्स ने विचारों के लिए एक अनियंत्रित अनुरोध नहीं किया, जो कि कई लोग कल्पना करते हैं जब वे पहली बार खुली कॉल पर विचार करते हैं। इसके बजाय, नेटफ्लिक्स ने एक साधारण मूल्यांकन प्रक्रिया के साथ एक स्पष्ट समस्या उत्पन्न की: उन्होंने लोगों को 3 मिलियन फिल्मों की रेटिंग का अनुमान लगाने के लिए चुनौती दी, जो कि 3 मिलियन होल्ड-आउट रेटिंग्स (रेटिंग जो उपयोगकर्ताओं ने बनाई थी लेकिन नेटफ्लिक्स रिलीज़ नहीं हुई थी) की भविष्यवाणी करने के लिए। एल्गोरिदम बनाने वाला पहला व्यक्ति जिसने 3 मिलियन आयोजित-आउट रेटिंग की भविष्यवाणी की है, सिनेमैच की तुलना में 10% बेहतर दस लाख डॉलर जीत जाएगी। मूल्यांकन प्रक्रिया को लागू करने के लिए यह स्पष्ट और आसान है-आयोजित रेटिंग के साथ अनुमानित रेटिंग की तुलना करना-जिसका मतलब है कि नेटफ्लिक्स पुरस्कार इस तरह से तैयार किया गया था कि समाधान उत्पन्न करने से समाधान जांचना आसान था; इसने सिनेमैच को एक खुली कॉल के लिए उपयुक्त समस्या में सुधारने की चुनौती को बदल दिया।

अक्टूबर 2006 में, नेटफ्लिक्स ने लगभग 500,000 ग्राहकों से 100 मिलियन फिल्म रेटिंग वाले एक डेटासेट जारी किए (हम अध्याय 6 में इस डेटा रिलीज के गोपनीयता निहितार्थों पर विचार करेंगे)। नेटफ्लिक्स डेटा को एक विशाल मैट्रिक्स के रूप में अवधारणाबद्ध किया जा सकता है जो 20,000 फिल्मों द्वारा लगभग 500,000 ग्राहकों को है। इस मैट्रिक्स के भीतर, एक से पांच सितारों (तालिका 5.2) से पैमाने पर लगभग 100 मिलियन रेटिंग थीं। 3 मिलियन आयोजित-आउट रेटिंग की भविष्यवाणी करने के लिए मैट्रिक्स में मनाए गए डेटा का उपयोग करना चुनौती थी।

तालिका 5.2: नेटफ्लिक्स पुरस्कार से डेटा के योजनाबद्ध
मूवी 1 मूवी 2 मूवी 3 ... मूवी 20,000
ग्राहक 1 2 5 ... ?
ग्राहक 2 2 ? ... 3
ग्राहक 3 ? 2 ...
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
ग्राहक 500,000 ? 2 ... 1

दुनिया भर में शोधकर्ताओं और हैकर चुनौती के लिए तैयार किए गए थे, और 2008 तक 30,000 से अधिक लोग इस पर काम कर रहे थे (Thompson 2008) । प्रतियोगिता के दौरान, नेटफ्लिक्स को 5000 से अधिक टीमों (Netflix 2009) से 40,000 से अधिक प्रस्तावित समाधान प्राप्त हुए। जाहिर है, नेटफ्लिक्स इन सभी प्रस्तावित समाधानों को पढ़ और समझ नहीं सका। हालांकि, पूरी चीज आसानी से चल रही थी, क्योंकि समाधान जांचना आसान था। नेटफ्लिक्स में एक कंप्यूटर केवल अनुमानित रेटिंग की तुलना में अनुमानित रेटिंग की तुलना कर सकता है, जो एक निर्धारित मेट्रिक का उपयोग करके आयोजित की गई रेटिंग के साथ होता है (वे विशेष मीट्रिक का उपयोग करते हैं जो औसत वर्ग त्रुटि का वर्ग रूट था)। नेटफ्लिक्स को हर किसी से समाधान स्वीकार करने में सक्षम करने वाले समाधानों का तेज़ी से मूल्यांकन करने की यह क्षमता थी, जो महत्वपूर्ण साबित हुए क्योंकि अच्छे विचार कुछ आश्चर्यजनक स्थानों से आए थे। वास्तव में, विजेता समाधान तीन शोधकर्ताओं द्वारा शुरू की गई एक टीम द्वारा प्रस्तुत किया गया था, जिनके पास पूर्व अनुभव निर्माण फिल्म अनुशंसा प्रणाली (Bell, Koren, and Volinsky 2010)

नेटफ्लिक्स पुरस्कार का एक सुंदर पहलू यह है कि यह सभी प्रस्तावित समाधानों का मूल्यांकन करने में सक्षम है। यही है, जब लोगों ने अपनी अनुमानित रेटिंग अपलोड की, तो उन्हें अपने अकादमिक प्रमाण-पत्र, उनकी आयु, जाति, लिंग, यौन अभिविन्यास या स्वयं के बारे में कुछ भी अपलोड करने की आवश्यकता नहीं थी। स्टैनफोर्ड के एक प्रसिद्ध प्रोफेसर की अनुमानित रेटिंग का इलाज उसके शयनकक्ष में किशोरी के समान ही किया गया था। दुर्भाग्यवश, यह अधिकांश सामाजिक शोध में सच नहीं है। यही है, ज्यादातर सामाजिक शोध के लिए, मूल्यांकन बहुत समय लेने वाला और आंशिक रूप से व्यक्तिपरक है। इसलिए, अधिकांश शोध विचारों का गंभीरता से मूल्यांकन नहीं किया जाता है, और जब विचारों का मूल्यांकन किया जाता है, तो विचारों के निर्माता से उन मूल्यांकनों को अलग करना मुश्किल होता है। दूसरी तरफ, ओपन कॉल प्रोजेक्ट्स में आसान और निष्पक्ष मूल्यांकन होता है ताकि वे उन विचारों को खोज सकें जो अन्यथा याद किए जाएंगे।

उदाहरण के लिए, नेटफ्लिक्स पुरस्कार के दौरान एक बिंदु पर, स्क्रीन नाम वाले साइमन फंक ने अपने ब्लॉग पर एक सिंगलुलर वैल्यू अपघटन के आधार पर एक प्रस्तावित समाधान पोस्ट किया, जो रैखिक बीजगणित से एक दृष्टिकोण था जिसे पहले अन्य प्रतिभागियों द्वारा उपयोग नहीं किया गया था। फंक का ब्लॉग पोस्ट एक साथ तकनीकी और अजीब रूप से अनौपचारिक था। क्या यह ब्लॉग पोस्ट एक अच्छा समाधान का वर्णन कर रहा था या क्या यह समय बर्बाद था? ओपन कॉल प्रोजेक्ट के बाहर, समाधान को गंभीर मूल्यांकन कभी नहीं मिला होगा। आखिरकार, साइमन फंक एमआईटी में प्रोफेसर नहीं थे; वह एक सॉफ्टवेयर डेवलपर था, उस समय, न्यूजीलैंड (Piatetsky 2007) आसपास बैकपैकिंग कर रहा था। अगर उन्होंने नेटफ्लिक्स में एक इंजीनियर को इस विचार को ईमेल किया था, तो यह लगभग निश्चित रूप से पढ़ा नहीं जाता था।

सौभाग्य से, क्योंकि मूल्यांकन मानदंड स्पष्ट और लागू करने में आसान थे, उनकी अनुमानित रेटिंग का मूल्यांकन किया गया था, और यह तुरंत स्पष्ट हो गया कि उनका दृष्टिकोण बहुत शक्तिशाली था: उन्होंने प्रतियोगिता में चौथे स्थान पर रॉकेट किया, एक जबरदस्त परिणाम दिया कि अन्य टीमें पहले ही हो चुकी हैं समस्या पर महीनों के लिए काम कर रहे हैं। अंत में, उनके दृष्टिकोण के कुछ हिस्सों का उपयोग लगभग सभी गंभीर प्रतिस्पर्धियों (Bell, Koren, and Volinsky 2010) द्वारा किया जाता था।

तथ्य यह है कि साइमन फंक ने इसे गुप्त रखने की कोशिश करने के बजाए अपने दृष्टिकोण को समझाते हुए एक ब्लॉग पोस्ट लिखना चुना, यह भी दर्शाता है कि नेटफ्लिक्स पुरस्कार में कई प्रतिभागियों को लाखों डॉलर के पुरस्कार से विशेष रूप से प्रेरित नहीं किया गया था। इसके बजाय, कई प्रतिभागियों ने भी बौद्धिक चुनौती और समुदाय के आसपास विकसित समुदाय (Thompson 2008) , मुझे लगता है कि कई शोधकर्ता समझ सकते हैं।

नेटफ्लिक्स पुरस्कार एक खुली कॉल का एक उत्कृष्ट उदाहरण है। नेटफ्लिक्स ने एक विशिष्ट लक्ष्य (फिल्म रेटिंग की भविष्यवाणी) और कई लोगों से अनुरोधित समाधान के साथ एक प्रश्न उठाया। नेटफ्लिक्स इन सभी समाधानों का मूल्यांकन करने में सक्षम था क्योंकि उन्हें बनाने के बजाय जांचना आसान था, और आखिरकार नेटफ्लिक्स ने सबसे अच्छा समाधान चुना। इसके बाद, मैं आपको दिखाऊंगा कि जीवविज्ञान और कानून में, और लाखों डॉलर के पुरस्कार के बिना यह वही दृष्टिकोण कैसे उपयोग किया जा सकता है।