6.6.2 समझ और प्रबंध सूचना के जोखिम

सामाजिक अनुसंधान में सूचनात्मक जोखिम सबसे आम जोखिम है; यह नाटकीय रूप से बढ़ गया है; और यह समझने का सबसे कठिन जोखिम है।

डिजिटल आयु अनुसंधान के लिए दूसरी नैतिक चुनौती सूचनात्मक जोखिम है , सूचना के प्रकटीकरण से नुकसान की संभावना (National Research Council 2014) । व्यक्तिगत जानकारी के प्रकटीकरण से सूचनात्मक नुकसान आर्थिक हो सकता है (उदाहरण के लिए, नौकरी खोना), सामाजिक (उदाहरण के लिए, शर्मिंदगी), मनोवैज्ञानिक (उदाहरण के लिए, अवसाद), या यहां तक ​​कि आपराधिक (उदाहरण के लिए, अवैध व्यवहार के लिए गिरफ्तारी)। दुर्भाग्यवश, डिजिटल युग नाटकीय रूप से सूचनात्मक जोखिम को बढ़ाता है-हमारे व्यवहार के बारे में बहुत अधिक जानकारी है। और सूचनात्मक जोखिम ने शारीरिक जोखिम जैसे एनालॉग-आयु सामाजिक शोध में चिंतित जोखिमों की तुलना में समझना और प्रबंधन करना बहुत मुश्किल साबित कर दिया है।

एक तरीका यह है कि सामाजिक शोधकर्ताओं ने सूचना के जोखिम को कम डेटा के "anonymization" है। "गुमनाम" जैसे नाम, पता, और डेटा से टेलीफोन नंबर के रूप में स्पष्ट व्यक्तिगत पहचानकर्ता हटाने की प्रक्रिया है। हालांकि, इस दृष्टिकोण गहरा और मौलिक सीमित बहुत कम प्रभावी की तुलना में कई लोगों को पता है, और यह वास्तव में है। कारण है कि, जब भी मैं वर्णन "गुमनाम" मैं उद्धरण चिह्नों आपको याद दिलाना है कि इस प्रक्रिया को नाम न छापने की उपस्थिति नहीं बल्कि सच न छापने बनाता इस्तेमाल करेंगे।

"अज्ञातकरण" की विफलता का एक ज्वलंत उदाहरण 1 99 0 के दशक के अंत में मैसाचुसेट्स (Sweeney 2002) । ग्रुप इंश्योरेंस कमीशन (जीआईसी) एक सरकारी एजेंसी थी जो सभी राज्य कर्मचारियों के लिए स्वास्थ्य बीमा खरीदने के लिए जिम्मेदार थी। इस काम के माध्यम से, जीआईसी ने हजारों राज्य कर्मचारियों के बारे में विस्तृत स्वास्थ्य रिकॉर्ड एकत्र किए। शोध को बढ़ाने के प्रयास में, जीआईसी ने इन अभिलेखों को शोधकर्ताओं को जारी करने का फैसला किया। हालांकि, उन्होंने अपने सभी डेटा साझा नहीं किए; बल्कि, वे नाम और पते जैसे सूचनाओं को हटाकर इन आंकड़ों को "अनामित" करते हैं। हालांकि, उन्होंने अन्य जानकारी छोड़ दी जो उन्होंने सोचा कि जनसांख्यिकीय जानकारी (ज़िप कोड, जन्म तिथि, जातीयता, और लिंग) और चिकित्सा जानकारी (डेटा, निदान, प्रक्रिया) (आंकड़ा 6.4) (Ohm 2010) आकृति (Ohm 2010) शोधकर्ताओं के लिए उपयोगी हो सकता है। दुर्भाग्यवश, यह "अनामिकरण" डेटा की सुरक्षा के लिए पर्याप्त नहीं था।

चित्र 6.4: अज्ञातकरण स्पष्ट रूप से पहचानने वाली जानकारी को हटाने की प्रक्रिया है। उदाहरण के लिए, राज्य कर्मचारियों के चिकित्सा बीमा रिकॉर्ड जारी करते समय, मैसाचुसेट्स समूह बीमा आयोग (जीआईसी) ने फाइलों से नाम और पते हटा दिए। मैं अनामिक शब्द के चारों ओर उद्धरण चिह्नों का उपयोग करता हूं क्योंकि प्रक्रिया गुमनाम होने की उपस्थिति प्रदान करती है लेकिन वास्तविक अनामिक नहीं है।

चित्र 6.4: "अनामिक" स्पष्ट रूप से पहचानने वाली जानकारी को हटाने की प्रक्रिया है। उदाहरण के लिए, राज्य कर्मचारियों के चिकित्सा बीमा रिकॉर्ड जारी करते समय, मैसाचुसेट्स समूह बीमा आयोग (जीआईसी) ने फाइलों से नाम और पते हटा दिए। मैं "अनामिकरण" शब्द के चारों ओर उद्धरण चिह्नों का उपयोग करता हूं क्योंकि प्रक्रिया गुमनाम होने की उपस्थिति प्रदान करती है लेकिन वास्तविक अनामिक नहीं है।

जीआईसी "अनामिकरण" की कमियों को स्पष्ट करने के लिए, लतीन स्वीनी- फिर एमआईटी में स्नातक छात्र ने मैसाचुसेट्स के गवर्नर विलियम वेल्ड के गृहनगर कैम्ब्रिज शहर से मतदान रिकॉर्ड प्राप्त करने के लिए $ 20 का भुगतान किया। इन मतदान रिकॉर्डों में नाम, पता, ज़िप कोड, जन्मतिथि और लिंग जैसी जानकारी शामिल थी। तथ्य यह है कि मेडिकल डेटा फ़ाइल और मतदाता फ़ाइल ने फ़ील्ड-ज़िप कोड, जन्म तिथि, और सेक्स साझा किया - जिसका मतलब है कि स्वीनी उन्हें जोड़ सकती थी। स्वीनी को पता था कि वेल्ड का जन्मदिन 31 जुलाई 1 9 45 था, और मतदान रिकॉर्ड में उस जन्मदिन के साथ कैम्ब्रिज में केवल छह लोग शामिल थे। इसके अलावा, उन छह लोगों में से केवल तीन पुरुष थे। और, उन तीनों पुरुषों में से केवल एक ही वेल्ड के ज़िप कोड साझा किया। इस प्रकार, मतदान आंकड़े बताते हैं कि वेल्ड के जन्म तिथि, लिंग और ज़िप कोड के संयोजन के साथ चिकित्सा डेटा में कोई भी विलियम वेल्ड था। संक्षेप में, जानकारी के इन तीन टुकड़ों ने डेटा में उनके लिए एक अद्वितीय फिंगरप्रिंट प्रदान किया। इस तथ्य का उपयोग करते हुए, स्वीनी वेल्ड के मेडिकल रिकॉर्ड का पता लगाने में सक्षम थीं, और, उन्हें अपनी उपलब्धि के बारे में सूचित करने के लिए, उन्होंने उन्हें अपने रिकॉर्ड (Ohm 2010) प्रतिलिपि (Ohm 2010)

चित्र 6.5: अनामित डेटा का पुन: प्रमाणीकरण। लेटान्या स्वीनी ने स्वीडन (2002), आकृति 1 से अनुकूलित गवर्नर विलियम वेल्ड के मेडिकल रिकॉर्ड खोजने के लिए मतदान रिकॉर्ड के साथ अनामित स्वास्थ्य रिकॉर्ड एकत्र किए।

चित्र 6.5: "अनामित" डेटा का पुन: प्रमाणीकरण। लेटान्या स्वीनी ने Sweeney (2002) , आकृति 1 से अनुकूलित गवर्नर विलियम वेल्ड के मेडिकल रिकॉर्ड खोजने के लिए मतदान रिकॉर्ड के साथ "अनामित" स्वास्थ्य रिकॉर्ड एकत्र किए।

स्वीनी का काम कंप्यूटर सुरक्षा समुदाय से एक शब्द अपनाने के लिए पुनः पहचान हमलों की मूल संरचना को दर्शाता है। इन हमलों में, दो डेटा सेट, जिनमें से कोई भी स्वयं संवेदनशील जानकारी प्रकट नहीं करता है, जुड़े हुए हैं, और इस संबंध के माध्यम से, संवेदनशील जानकारी का खुलासा किया गया है।

स्वीनी के काम और अन्य संबंधित कार्यों के जवाब में, शोधकर्ता अब आम तौर पर " (Narayanan and Shmatikov 2010) " की प्रक्रिया के दौरान - अधिकतर जानकारी "व्यक्तिगत पहचान जानकारी" ( (Narayanan and Shmatikov 2010) ) (Narayanan and Shmatikov 2010) हटाते हैं। इसके अलावा, कई शोधकर्ता अब एहसास करें कि कुछ डेटा- जैसे मेडिकल रिकॉर्ड्स, वित्तीय रिकॉर्ड, अवैध व्यवहार के बारे में सर्वेक्षण सवालों के जवाब-शायद "अनामिकता" के बाद भी रिलीज करने के लिए बहुत संवेदनशील हैं। हालांकि, उदाहरण जो मैं देने वाला हूं, सुझाव देता है कि सामाजिक शोधकर्ताओं को उनकी सोच बदलने के लिए। पहले चरण के रूप में, यह मानना ​​बुद्धिमानी है कि सभी डेटा संभावित रूप से पहचान योग्य हैं और सभी डेटा संभावित रूप से संवेदनशील हैं। दूसरे शब्दों में, यह सोचने के बजाय कि सूचनात्मक जोखिम परियोजनाओं के एक छोटे से सबसेट पर लागू होता है, हमें यह मानना ​​चाहिए कि यह कुछ परियोजनाओं के लिए लागू होता है-सभी परियोजनाओं के लिए।

इस पुनरावृत्ति के दोनों पहलुओं को नेटफ्लिक्स पुरस्कार द्वारा दिखाया गया है। जैसा कि अध्याय 5 में वर्णित है, नेटफ्लिक्स ने लगभग 500,000 सदस्यों द्वारा प्रदान की गई 100 मिलियन फिल्म रेटिंग जारी की, और एक खुली कॉल थी जहां दुनिया भर के लोगों ने एल्गोरिदम सबमिट किए जो नेटफ्लिक्स की फिल्मों की सिफारिश करने की क्षमता में सुधार कर सकते थे। डेटा जारी करने से पहले, नेटफ्लिक्स ने नामों जैसे व्यक्तिगत रूप से पहचानने वाली किसी भी स्पष्ट जानकारी को हटा दिया। वे एक अतिरिक्त कदम भी गए और कुछ रिकॉर्डों में मामूली परेशानियां पेश कीं (उदाहरण के लिए, 4 सितारों से 3 सितारों तक कुछ रेटिंग बदलना)। उन्होंने जल्द ही खोज की, हालांकि, उनके प्रयासों के बावजूद, डेटा अभी भी अज्ञात नहीं था।

डेटा जारी होने के सिर्फ दो सप्ताह बाद, अरविंद नारायणन और विटाली शमतिकोव (2008) ने दिखाया कि विशिष्ट लोगों की फिल्म वरीयताओं के बारे में जानना संभव था। उनके पुनः पहचान हमले की चाल स्वीनी के समान थी: दो सूचना स्रोतों को मिलाएं, एक संभावित रूप से संवेदनशील जानकारी के साथ और कोई स्पष्ट रूप से पहचानने वाली जानकारी और जिसमें लोगों की पहचान शामिल है। इनमें से प्रत्येक डेटा स्रोत व्यक्तिगत रूप से सुरक्षित हो सकता है, लेकिन जब वे संयुक्त होते हैं, तो विलय किए गए डेटासेट सूचनात्मक जोखिम बना सकते हैं। नेटफ्लिक्स डेटा के मामले में, यह कैसे हो सकता है। कल्पना कीजिए कि मैं अपने सहकर्मियों के साथ कार्रवाई और कॉमेडी फिल्मों के बारे में अपने विचार साझा करना चुनता हूं, लेकिन मैं धार्मिक और राजनीतिक फिल्मों के बारे में अपनी राय साझा नहीं करना पसंद करता हूं। मेरे सहकर्मी नेटफ्लिक्स डेटा में अपने रिकॉर्ड खोजने के लिए उन जानकारी का उपयोग कर सकते हैं जिन्हें मैंने उनके साथ साझा किया है; जो जानकारी मैं साझा करता हूं वह विलियम वेल्ड की जन्म तिथि, ज़िप कोड और सेक्स की तरह एक अद्वितीय फिंगरप्रिंट हो सकती है। फिर, अगर उन्हें डेटा में मेरा अनोखा फिंगरप्रिंट मिला, तो वे सभी फिल्मों के बारे में मेरी रेटिंग सीख सकते हैं, जिनमें फिल्में शामिल नहीं हैं जिन्हें मैं साझा नहीं करना चाहता हूं। इस तरह के लक्षित हमले के अलावा, एक व्यक्ति पर ध्यान केंद्रित करने के अलावा, नारायणन और शमतिकोव ने यह भी दिखाया कि व्यापक हमले करना संभव था - जिसमें कई लोगों को शामिल किया गया था- नेटफ्लिक्स डेटा को निजी और मूवी रेटिंग डेटा के साथ विलय करके कुछ लोगों ने चुना है इंटरनेट मूवी डेटाबेस (आईएमडीबी) पर पोस्ट करने के लिए। काफी सरलता से, किसी भी जानकारी जो एक विशिष्ट व्यक्ति के लिए एक अद्वितीय फिंगरप्रिंट है-यहां तक ​​कि उनके फिल्म रेटिंग के सेट-का उपयोग उन्हें पहचानने के लिए किया जा सकता है।

भले ही नेटफ्लिक्स डेटा को किसी लक्षित या व्यापक हमले में फिर से पहचाना जा सके, फिर भी यह कम जोखिम प्रतीत होता है। आखिरकार, फिल्म रेटिंग बहुत संवेदनशील नहीं लगती है। हालांकि यह सामान्य रूप से सच हो सकता है, डेटासेट में 500,000 लोगों में से कुछ के लिए, फिल्म रेटिंग काफी संवेदनशील हो सकती है। असल में, पुनः पहचान के जवाब में, एक कोठरी वाली समलैंगिक महिला नेटफ्लिक्स के खिलाफ क्लास-एक्शन सूट में शामिल हो गई। यहां बताया गया है कि उनके मुकदमे में समस्या कैसे व्यक्त की गई थी (Singel 2009) :

"[एम] ओवी और रेटिंग डेटा में एक ... व्यक्तिगत व्यक्तिगत और संवेदनशील प्रकृति की जानकारी शामिल है। सदस्य का मूवी डेटा नेटफिक्स सदस्य के व्यक्तिगत हित और / या यौन संबंध, मानसिक बीमारी, शराब से वसूली, और नफरत, शारीरिक दुर्व्यवहार, घरेलू हिंसा, व्यभिचार और बलात्कार से पीड़ित होने सहित विभिन्न व्यक्तिगत मुद्दों के साथ संघर्ष का खुलासा करता है। "

नेटफ्लिक्स पुरस्कार डेटा की पुन: पहचान दोनों को दर्शाती है कि सभी डेटा संभावित रूप से पहचान योग्य हैं और सभी डेटा संभावित रूप से संवेदनशील हैं। इस बिंदु पर, आप सोच सकते हैं कि यह केवल उन डेटा पर लागू होता है जो लोगों के बारे में बताते हैं। आश्चर्य की बात है, यह मामला नहीं है। सूचना कानून अनुरोध की स्वतंत्रता के जवाब में, न्यूयॉर्क सिटी सरकार ने 2013 में न्यू यॉर्क में हर टैक्सी की सवारी के रिकॉर्ड जारी किए, जिसमें पिकअप और ड्रॉप ऑफ टाइम, स्थान और किराए की रकम शामिल है ( Farber (2015) अध्याय 2 से याद रखें श्रम अर्थशास्त्र में महत्वपूर्ण सिद्धांतों का परीक्षण करने के लिए इसी तरह के डेटा का इस्तेमाल किया)। टैक्सी यात्रा के बारे में ये आंकड़े सौम्य प्रतीत हो सकते हैं क्योंकि वे लोगों के बारे में जानकारी प्रदान नहीं करते हैं, लेकिन एंथनी टॉकर को एहसास हुआ कि इस टैक्सी डेटासेट में वास्तव में लोगों के बारे में बहुत से संवेदनशील संवेदनशील जानकारी शामिल है। उदाहरण के लिए, उन्होंने हसलर क्लब में शुरू होने वाली सभी यात्राओं को देखा - न्यूयॉर्क में एक बड़े स्ट्रिप क्लब-मध्यरात्रि और 6 बजे के बीच और फिर उनके ड्रॉप-ऑफ स्थानों को मिला। इस खोज से पता चला - संक्षेप में- कुछ लोगों के पते की एक सूची जिन्होंने हसलर क्लब (Tockar 2014) बार-बार उपयोग किया। यह कल्पना करना मुश्किल है कि डेटा जारी होने पर शहर सरकार को यह ध्यान में था। वास्तव में, इस तकनीक का उपयोग उन लोगों के घर के पते को खोजने के लिए किया जा सकता है जो शहर में किसी भी स्थान पर जाते हैं-एक चिकित्सा क्लिनिक, एक सरकारी भवन, या एक धार्मिक संस्था।

नेटफ्लिक्स पुरस्कार और न्यूयॉर्क शहर टैक्सी डेटा के इन दो मामलों से पता चलता है कि अपेक्षाकृत कुशल लोग अपने द्वारा जारी किए गए डेटा में सूचनात्मक जोखिम का सही अनुमान लगाने में असफल हो सकते हैं- और इन मामलों का कोई मतलब अद्वितीय नहीं है (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) । इसके अलावा, ऐसे कई मामलों में, समस्याग्रस्त डेटा अभी भी ऑनलाइन उपलब्ध है, जो डेटा रिलीज को पूर्ववत करने की कठिनाई का संकेत देता है। सामूहिक रूप से, इन उदाहरणों के साथ-साथ गोपनीयता विज्ञान के बारे में कंप्यूटर विज्ञान में अनुसंधान एक महत्वपूर्ण निष्कर्ष तक पहुंचाता है। शोधकर्ताओं को यह मानना ​​चाहिए कि सभी डेटा संभावित रूप से पहचान योग्य हैं और सभी डेटा संभावित रूप से संवेदनशील हैं।

दुर्भाग्यवश, तथ्यों के लिए कोई आसान समाधान नहीं है कि सभी डेटा संभावित रूप से पहचान योग्य हैं और सभी डेटा संभावित रूप से संवेदनशील हैं। हालांकि, डेटा के साथ काम करते समय सूचनात्मक जोखिम को कम करने का एक तरीका डेटा संरक्षण योजना बनाना और उसका पालन करना है । यह योजना आपके डेटा को रिसाव करने का मौका कम कर देगी और यदि कोई रिसाव किसी तरह से होता है तो नुकसान कम हो जाएगा। डेटा सुरक्षा योजनाओं के विनिर्देश, जैसे कि किस प्रकार का एन्क्रिप्शन उपयोग करना है, समय के साथ बदल जाएगा, लेकिन यूके डेटा सर्विसेज डेटा सुरक्षा योजना के तत्वों को पांच श्रेणियों में मददगार रूप से व्यवस्थित करती है जिन्हें वे पांच safes कहते हैं : सुरक्षित परियोजनाएं, सुरक्षित लोग , सुरक्षित सेटिंग्स, सुरक्षित डेटा, और सुरक्षित आउटपुट (तालिका 6.2) (Desai, Ritchie, and Welpton 2016) । पांच safes में से कोई भी व्यक्तिगत रूप से सही सुरक्षा प्रदान नहीं करता है। लेकिन साथ में वे कारकों का एक शक्तिशाली सेट बनाते हैं जो सूचनात्मक जोखिम को कम कर सकते हैं।

तालिका 6.2: "पांच सफेस" डेटा संरक्षण योजना (Desai, Ritchie, and Welpton 2016) के डिजाइन और निष्पादन के सिद्धांत हैं।
सुरक्षित कार्य
सुरक्षित परियोजनाएं आंकड़ों के साथ परियोजनाओं को सीमित करता है जो नैतिक हैं
सुरक्षित लोग एक्सेस उन लोगों तक सीमित है जिन्हें डेटा के साथ भरोसा किया जा सकता है (उदाहरण के लिए, जो लोग नैतिक प्रशिक्षण ले चुके हैं)
सुरक्षित डेटा डेटा को यथासंभव हद तक पहचाना और समेकित किया जाता है
सुरक्षित सेटिंग्स डेटा उचित भौतिक (उदाहरण के लिए, लॉक रूम) और सॉफ़्टवेयर (जैसे, पासवर्ड सुरक्षा, एन्क्रिप्टेड) ​​सुरक्षा वाले कंप्यूटरों में संग्रहीत किया जाता है
सुरक्षित आउटपुट आकस्मिक गोपनीयता उल्लंघनों को रोकने के लिए अनुसंधान आउटपुट की समीक्षा की जाती है

जब आप उनका उपयोग कर रहे हों तो अपने डेटा की सुरक्षा के अलावा, शोध प्रक्रिया में एक कदम जहां सूचनात्मक जोखिम विशेष रूप से मुख्य है, अन्य शोधकर्ताओं के साथ डेटा साझा करना है। वैज्ञानिकों के बीच डेटा साझा करना वैज्ञानिक प्रयास का मुख्य मूल्य है, और यह ज्ञान की प्रगति को बहुत सुविधाजनक बनाता है। यहां बताया गया है कि यूके हाउस ऑफ कॉमन्स ने डेटा साझा करने के महत्व का वर्णन कैसे किया (Molloy 2011) :

"शोधकर्ताओं को साहित्य में रिपोर्ट किए गए परिणामों पर पुन: उत्पन्न, सत्यापन और निर्माण करने के लिए डेटा तक पहुंच मौलिक है। अनुमान यह होना चाहिए कि, जब तक कोई मजबूत कारण न हो, डेटा को पूरी तरह से खुलासा किया जाना चाहिए और सार्वजनिक रूप से उपलब्ध कराया जाना चाहिए। "

फिर भी, अपने डेटा को किसी अन्य शोधकर्ता के साथ साझा करके, आप अपने प्रतिभागियों को सूचनात्मक जोखिम बढ़ा सकते हैं। इस प्रकार, ऐसा लगता है कि डेटा साझाकरण अन्य वैज्ञानिकों के साथ डेटा साझा करने के दायित्व और प्रतिभागियों को सूचनात्मक जोखिम को कम करने के दायित्व के बीच एक मौलिक तनाव बनाता है। सौभाग्य से, यह दुविधा उतनी गंभीर नहीं है जितनी दिखती है। इसके बजाय, निरंतरता के साथ गिरने के रूप में डेटा साझाकरण के बारे में सोचना बेहतर है, उस निरंतरता के प्रत्येक बिंदु के साथ समाज को लाभ का एक अलग मिश्रण प्रदान करना और प्रतिभागियों को जोखिम (आंकड़ा 6.6) प्रदान करना।

एक चरम पर, आप अपने डेटा को किसी के साथ साझा नहीं कर सकते हैं, जो प्रतिभागियों को जोखिम कम करता है लेकिन समाज को लाभ भी कम करता है। दूसरी तरफ, आप रिलीज और भूल सकते हैं, जहां डेटा "अनामित" है और सभी के लिए पोस्ट किया गया है। डेटा जारी करने, रिहाई और भूलने के सापेक्ष समाज को उच्च लाभ और प्रतिभागियों को उच्च जोखिम प्रदान करता है। इन दो चरम मामलों में बीच में संकर की एक श्रृंखला है, जिसमें मैं दीवार वाले बगीचे के दृष्टिकोण को भी कहूंगा। इस दृष्टिकोण के तहत, डेटा उन लोगों के साथ साझा किया जाता है जो कुछ मानदंडों को पूरा करते हैं और जो कुछ नियमों (जैसे, आईआरबी से निरीक्षण और डेटा सुरक्षा योजना) से बाध्य होने के लिए सहमत हैं। दीवारदार उद्यान दृष्टिकोण रिलीज के कई लाभ प्रदान करता है और कम जोखिम के साथ भूल जाता है। निस्संदेह, इस तरह के दृष्टिकोण से कई प्रश्न पैदा होते हैं- जिनके पास पहुंच होनी चाहिए, किस परिस्थितियों में, और कितनी देर तक, दीवारों के बगीचे को बनाए रखने और पुलिस को रखने के लिए भुगतान करना चाहिए- लेकिन ये दुर्बल नहीं हैं। वास्तव में, वहां पहले से ही काम कर रहे दीवार वाले बगीचे हैं जो शोधकर्ता अभी उपयोग कर सकते हैं, जैसे मिशिगन विश्वविद्यालय में राजनीतिक और सामाजिक अनुसंधान के लिए इंटर-यूनिवर्सिटी कंसोर्टियम के डेटा संग्रह।

चित्र 6.6: डेटा रिलीज रणनीतियों निरंतर के साथ गिर सकते हैं। जहां आप इस निरंतरता पर रहना चाहिए, आपके डेटा के विशिष्ट विवरणों पर निर्भर करता है, और तृतीय-पक्ष की समीक्षा से आप अपने मामले में जोखिम और लाभ के उचित संतुलन का निर्णय लेने में मदद कर सकते हैं। इस वक्र का सटीक आकार डेटा और शोध लक्ष्यों (गोरऑफ 2015) के विनिर्देशों पर निर्भर करता है।

चित्र 6.6: डेटा रिलीज रणनीतियों निरंतर के साथ गिर सकते हैं। जहां आप इस निरंतरता पर रहना चाहिए, आपके डेटा के विशिष्ट विवरणों पर निर्भर करता है, और तृतीय-पक्ष की समीक्षा से आप अपने मामले में जोखिम और लाभ के उचित संतुलन का निर्णय लेने में मदद कर सकते हैं। इस वक्र का सटीक आकार डेटा और शोध लक्ष्यों (Goroff 2015) के विनिर्देशों पर निर्भर करता है।

तो, आपके अध्ययन से डेटा को साझा करने, दीवार वाले बगीचे की निरंतरता पर क्यों जाना चाहिए, और रिलीज करना और भूलना चाहिए? यह आपके डेटा के ब्योरे पर निर्भर करता है: शोधकर्ताओं को कानून, जनमत, न्याय और कानून और सार्वजनिक हित के सम्मान के लिए सम्मान संतुलन रखना चाहिए। इस परिप्रेक्ष्य से देखा गया, डेटा साझाकरण एक विशिष्ट नैतिक conundrum नहीं है; यह अनुसंधान के कई पहलुओं में से एक है जिसमें शोधकर्ताओं को उचित नैतिक संतुलन मिलना पड़ता है।

कुछ आलोचकों का आम तौर पर डेटा साझाकरण का विरोध होता है क्योंकि, मेरी राय में, वे अपने जोखिमों पर ध्यान केंद्रित कर रहे हैं-जो निस्संदेह वास्तविक हैं और इसके लाभों को अनदेखा कर रहे हैं। इसलिए, दोनों जोखिमों और लाभों पर ध्यान केंद्रित करने के लिए, मैं एक समानता प्रदान करना चाहता हूं। हर साल, कारें हजारों मौतों के लिए ज़िम्मेदार हैं, लेकिन हम ड्राइविंग पर प्रतिबंध लगाने का प्रयास नहीं करते हैं। वास्तव में, ड्राइविंग पर प्रतिबंध लगाने के लिए एक कॉल बेतुका होगा क्योंकि ड्राइविंग कई अद्भुत चीजों को सक्षम बनाता है। इसके बजाय, समाज कौन ड्राइव कर सकता है (उदाहरण के लिए, एक निश्चित उम्र होने की आवश्यकता है और कुछ परीक्षण पास करने की आवश्यकता है) पर प्रतिबंध लगाता है और वे कैसे ड्राइव कर सकते हैं (उदाहरण के लिए, गति सीमा के तहत)। समाज ने लोगों को इन नियमों (उदाहरण के लिए, पुलिस) को लागू करने के लिए भी काम किया है, और हम उन लोगों को दंडित करते हैं जो उन्हें उल्लंघन कर रहे हैं। इस तरह की संतुलित सोच यह है कि समाज ड्राइविंग को नियंत्रित करने के लिए लागू होता है, डेटा साझाकरण पर भी लागू किया जा सकता है। डेटा साझा करने के लिए या उसके खिलाफ निरपेक्ष तर्क बनाने के बजाय, मुझे लगता है कि हम जोखिम को कम कर सकते हैं और डेटा साझाकरण से लाभ कैसे बढ़ा सकते हैं, इस पर ध्यान केंद्रित करके हम सबसे अधिक प्रगति करेंगे।

निष्कर्ष निकालने के लिए, सूचनात्मक जोखिम नाटकीय रूप से बढ़ गया है, और भविष्यवाणी करना और मापना बहुत मुश्किल है। इसलिए, यह मानना ​​सबसे अच्छा है कि सभी डेटा संभावित रूप से पहचाने जाने योग्य और संभावित रूप से संवेदनशील हैं। शोध करते समय सूचनात्मक जोखिम को कम करने के लिए, शोधकर्ता डेटा संरक्षण योजना बना सकते हैं और उनका पालन कर सकते हैं। इसके अलावा, सूचनात्मक जोखिम शोधकर्ताओं को अन्य वैज्ञानिकों के साथ डेटा साझा करने से नहीं रोकता है।