5.3.1 नेटफ्लिक्स पुरस्कार

नेटफ्लिक्स पुरस्कार भविष्यवाणी करने के लिए जो फिल्में लोगों को पसंद आएगा ओपन कॉल उपयोग करता है।

सबसे अच्छी तरह से जाना जाता ओपन कॉल परियोजना नेटफ्लिक्स पुरस्कार है। नेटफ्लिक्स एक ऑनलाइन फिल्म किराये की कंपनी है, और 2000 में यह ग्राहकों के लिए फिल्मों की सिफारिश करने Cinematch, एक सेवा का शुभारंभ किया। उदाहरण के लिए, Cinematch पाएँगे कि आप स्टार वार्स और साम्राज्य हमलों पसंद आया और फिर वापस अनुशंसा करते हैं कि आप जेडी की वापसी को देखते हैं। प्रारंभ में, Cinematch खराब काम किया। लेकिन, कई वर्षों के दौरान, Cinematch भविष्यवाणी करने के लिए ग्राहकों को क्या फिल्मों का आनंद होगा इसकी क्षमता में सुधार करने के लिए जारी रखा। 2006 तक, तथापि, Cinematch पर प्रगति plateaued। नेटफ्लिक्स में शोधकर्ताओं बहुत ज्यादा सब कुछ वे सोच भी नहीं सकते की कोशिश की थी, लेकिन एक ही समय में, वे संदिग्ध अन्य विचार है कि उन्हें अपनी प्रणाली में सुधार करने में मदद कर सकते हैं कि वहाँ थे। एक खुला कॉल: इस प्रकार, वे एक क्रांतिकारी समाधान क्या था के साथ आया था, समय पर,।

नेटफ्लिक्स पुरस्कार के अंतिम सफलता के लिए महत्वपूर्ण कैसे खुला कॉल डिजाइन किया गया था, और इस डिजाइन कैसे खुला कॉल सामाजिक अनुसंधान के लिए इस्तेमाल किया जा सकता है के लिए महत्वपूर्ण सबक है। नेटफ्लिक्स सिर्फ विचारों के लिए एक असंरचित अनुरोध है, जो कई लोगों को क्या कल्पना जब वे पहली बार एक खुला कॉल पर विचार बाहर नहीं डाली। बल्कि, नेटफ्लिक्स एक सरल मूल्यांकन मानदंडों के साथ एक स्पष्ट समस्या उत्पन्न: वे लोगों को चुनौती दी 3 लाख आयोजित बाहर रेटिंग्स भविष्यवाणी करने के लिए 100 मिलियन फिल्म रेटिंग्स के एक सेट का उपयोग करने के लिए (रेटिंग्स है कि उपयोगकर्ताओं को बनाया था लेकिन वह नेटफ्लिक्स जारी नहीं किया था)। जिस किसी ने भी एक एल्गोरिथ्म है कि 3 लाख आयोजित बाहर रेटिंग्स 10% की तुलना में बेहतर Cinematch 1 मिलियन डॉलर जीत होगी भविष्यवाणी कर सकता बना सकते हैं। यह स्पष्ट है और आसानी मूल्यांकन मापदंड-तुलना करने के लिए आयोजित किया-बाहर की भविष्यवाणी की रेटिंग लागू करने के लिए रेटिंग का मतलब है कि-नेटफ्लिक्स पुरस्कार इस तरह है कि समाधान उत्पन्न की तुलना में जांच करने के लिए आसान कर रहे हैं में फंसाया गया था; यह एक खुला कॉल के लिए उपयुक्त एक समस्या में Cinematch में सुधार लाने की चुनौती बदल गया।

2006 के अक्तूबर में, नेटफ्लिक्स एक डाटासेट के बारे में के बारे में 500.000 ग्राहकों से 100 मिलियन फिल्म रेटिंग युक्त (हम अध्याय 6 में इस डेटा रिहाई की गोपनीयता प्रभाव पर विचार होगा) जारी किया। नेटफ्लिक्स डेटा एक विशाल मैट्रिक्स लगभग 20,000 फिल्मों से 500,000 ग्राहकों है कि अवधारणा के रूप में किया जा सकता है। इस मैट्रिक्स के भीतर, वहाँ 1 से 5 सितारों (तालिका 5.2) से एक पैमाने पर लगभग 100 करोड़ रेटिंग्स थे। चुनौती मैट्रिक्स में मनाया डेटा का उपयोग करने के लिए 3 लाख आयोजित बाहर रेटिंग्स भविष्यवाणी करने के लिए किया गया था।

टेबल 5.2: नेटफ्लिक्स पुरस्कार से डेटा के योजनाबद्ध। नेटफ्लिक्स 20,000 फिल्मों पर 500,000 ग्राहकों द्वारा प्रदान के बारे में 100 मिलियन रेटिंग (1 सितारा से 5 सितारों) जारी किया। नेटफ्लिक्स पुरस्कार के लक्ष्य को 3 लाख फिल्में, के रूप में "?" दिखाया आयोजित बाहर रेटिंग्स की भविष्यवाणी करने के लिए इन रेटिंग्स का उपयोग करने के लिए किया गया था। नेटफ्लिक्स पुरस्कार में प्रतिभागियों द्वारा प्रस्तुत की भविष्यवाणी की रेटिंग करने के लिए आयोजित किया-बाहर रेटिंग्स की तुलना में थे। मैं अध्याय 6 में इस डेटा रिहाई के आसपास नैतिक मुद्दों पर चर्चा करेंगे।
फिल्म 1 फिल्म 2 मूवी 3 । । । मूवी 20,000
ग्राहक 1 2 5 ?
ग्राहक 2 2 ? 3
ग्राहक 3 ? 2
। । ।
ग्राहक 500,000 ? 2 1

शोधकर्ताओं और दुनिया भर के हैकर्स चुनौती के लिए तैयार थे, और 2008 तक 30,000 से अधिक लोगों को इस पर काम कर रहे थे (Thompson 2008) । प्रतियोगिता के दौरान, नेटफ्लिक्स 5000 से अधिक टीमों से 40,000 से अधिक प्रस्तावित समाधान प्राप्त (Netflix 2009) । जाहिर है, नेटफ्लिक्स पढ़ सकते हैं और इन सभी प्रस्तावित समाधान नहीं समझ सके। पूरी बात, आसानी से भाग गया लेकिन क्योंकि समाधान की जाँच करने के लिए आसान थे। नेटफ्लिक्स सिर्फ एक कंप्यूटर एक पूर्व निर्धारित मीट्रिक (विशेष मीट्रिक वे इस्तेमाल मतलब चुकता त्रुटि के वर्गमूल था) द्वारा आयोजित करने के लिए बाहर रेटिंग्स की भविष्यवाणी की रेटिंग की तुलना कर सकते हैं। यह जल्दी समाधान है कि हर किसी को सक्षम नेटफ्लिक्स, जो निकला क्योंकि अच्छे विचारों में कुछ आश्चर्यजनक स्थानों से आए महत्वपूर्ण होने से समाधान को स्वीकार करने का मूल्यांकन करने के लिए इस क्षमता थी। वास्तव में, जीतने के समाधान के लिए एक टीम तीन शोधकर्ताओं कि कोई पूर्व अनुभव भवन फिल्म सिफारिश सिस्टम था द्वारा शुरू द्वारा प्रस्तुत किया गया (Bell, Koren, and Volinsky 2010)

नेटफ्लिक्स पुरस्कार से एक खूबसूरत पहलू यह है कि यह दुनिया में हर किसी को सक्षम उनके समाधान का मूल्यांकन काफी है। लोगों को अपनी भविष्यवाणी की रेटिंग अपलोड की है, वे अपने अकादमिक रिकॉर्ड, उनकी उम्र, जाति, लिंग, यौन अभिविन्यास, या खुद के बारे में कुछ भी अपलोड करने की जरूरत नहीं थी। इस प्रकार, स्टैनफोर्ड से एक प्रसिद्ध प्रोफेसर की भविष्यवाणी की रेटिंग वास्तव में उसके बेडरूम में एक किशोरी से उन लोगों के रूप में एक ही इलाज किया गया। दुर्भाग्य से, यह सबसे सामाजिक अनुसंधान के क्षेत्र में सच नहीं है। यही कारण है कि सबसे सामाजिक अनुसंधान के लिए, मूल्यांकन बहुत समय लगता है और आंशिक रूप से व्यक्तिपरक है, है। तो, सबसे अनुसंधान विचारों को गंभीरता से मूल्यांकन नहीं कर रहे हैं, और जब विचारों का मूल्यांकन किया जाता है, यह विचारों के निर्माता से उन मूल्यांकन अलग करने के लिए कठिन है। क्योंकि समाधान जाँच करने के लिए आसान कर रहे हैं, खुले कॉल शोधकर्ताओं ने सभी संभावित अद्भुत समाधान है कि दरारों के माध्यम से गिर जाएगा अगर वे केवल प्रसिद्ध प्रोफेसरों से समाधान पर विचार का उपयोग करने की अनुमति देते हैं।

उदाहरण के लिए, स्क्रीन नाम के साथ नेटफ्लिक्स पुरस्कार किसी के दौरान एक बिंदु पर साइमन दुर्गंध एक विलक्षण मूल्य अपघटन के आधार पर अपने ब्लॉग में एक प्रस्तावित समाधान पर पोस्ट किया है, रेखीय बीजगणित से एक दृष्टिकोण है कि अन्य प्रतिभागियों द्वारा पहले से इस्तेमाल नहीं किया गया था। दुर्गंध के ब्लॉग पोस्ट एक साथ तकनीकी और अजीब तरह से अनौपचारिक था। इस ब्लॉग पोस्ट एक अच्छा समाधान का वर्णन है या यह समय की बर्बादी कर रहा था? एक खुला कॉल परियोजना के बाहर, समाधान कभी नहीं गंभीर मूल्यांकन प्राप्त हो सकता है। सब के बाद साइमन दुर्गंध काल टेक या एमआईटी में प्रोफेसर नहीं था; वह एक सॉफ्टवेयर डेवलपर, जो समय में, न्यूजीलैंड के आसपास backpacking गया था (Piatetsky 2007) । वह नेटफ्लिक्स में एक इंजीनियर को यह विचार ईमेल किया था, तो यह लगभग निश्चित रूप से गंभीरता से नहीं लिया गया होता।

सौभाग्य से, क्योंकि मूल्यांकन मापदंड स्पष्ट और लागू करने के लिए आसान थे, उसकी भविष्यवाणी की रेटिंग का मूल्यांकन किया गया है, और यह तुरंत स्पष्ट है कि अपने दृष्टिकोण बहुत शक्तिशाली था: वह प्रतियोगिता में चौथे स्थान पर पहुंचा, एक जबरदस्त परिणाम दिया है कि अन्य टीमों को पहले से ही किया गया था समस्या पर महीनों के लिए काम कर रहे हैं। अंत में, साइमन दुर्गंध के दृष्टिकोण के कुछ हिस्सों में लगभग सभी गंभीर प्रतियोगियों द्वारा इस्तेमाल किया गया (Bell, Koren, and Volinsky 2010)

तथ्य यह है कि साइमन दुर्गंध एक ब्लॉग पोस्ट, अपने दृष्टिकोण को समझा बल्कि यह गुप्त रखने के लिए कोशिश कर रहा से लिखने के लिए चुना है, यह भी दिखाता है कि नेटफ्लिक्स पुरस्कार में कई प्रतिभागियों को विशेष रूप से दस लाख डॉलर के पुरस्कार से प्रेरित नहीं कर रहे थे। दरअसल, कई प्रतिभागियों को भी बौद्धिक चुनौती और समुदाय है कि समस्या के आसपास विकसित आनंद लग रहा था (Thompson 2008) , भावनाओं कि मुझे उम्मीद कई शोधकर्ताओं समझ सकते हैं।

नेटफ्लिक्स पुरस्कार एक खुला कॉल का एक उत्कृष्ट उदाहरण है। नेटफ्लिक्स एक विशेष लक्ष्य के साथ एक प्रश्न उत्पन्न (फिल्म रेटिंग्स की भविष्यवाणी) और कई लोगों से समाधान मांगा। नेटफ्लिक्स, क्योंकि वे बनाने के लिए अधिक से सत्यापित करने के लिए आसान थे इन सभी समाधान का मूल्यांकन करने में सक्षम था, और अंततः नेटफ्लिक्स सबसे अच्छा समाधान उठाया। अगला, मैं आपको बताएंगे कि कैसे इस एक ही दृष्टिकोण जीव विज्ञान और कानून में इस्तेमाल किया जा सकता हूँ।