2.3.2.2 ხელმიუწვდომელი

მონაცემები გამართა მთავრობები და ბიზნესი რთულია მკვლევარები წვდომა.

2014 წლის მაისში აშშ-ის ეროვნული უსაფრთხოების დღის წესრიგი გაიხსნა მონაცემების ცენტრი სოფლის Utah, რომელსაც აქვს უხერხულ სახელი, დაზვერვის საზოგადოების ყოვლისმომცველი ეროვნული კიბერუსაფრთხოების ინიციატივა მონაცემთა ცენტრი. თუმცა, ამ მონაცემების ცენტრი, რომელიც დადგა ცნობილია, როგორც Utah მონაცემთა ცენტრი, ცნობილია, რომ აქვს astounding შესაძლებლობები. ერთ-ერთ მოხსენებაში აცხადებს, რომ Utah მონაცემთა ცენტრს შეუძლია შეინახოს და დამუშავებას ყველა კომუნიკაციის, მათ შორის "სრული შინაარსი შეტყობინების იმეილები, ზარები, და Google ძიება, ისევე, როგორც ყველა სახის პერსონალური მონაცემების ბილიკების პარკირების ქვითრები, ტურისტული მარშრუტები , მაღაზია შესყიდვები, და სხვა ციფრული `ჯიბეში litter" (Bamford 2012) . გარდა ამისა, ამაღლების შეშფოთება მგრძნობიარე ბუნებას ბევრი ინფორმაცია ტყვედ დიდი მონაცემები, სადაც აღწერილი იქნება უფრო ქვემოთ, Utah მონაცემთა ცენტრი არის უკიდურესი მაგალითია მდიდარი მონაცემთა წყარო რომ არის მიუწვდომელი მკვლევარები. უფრო ზოგადად, მრავალი წყაროები დიდი მონაცემები, რომ სასარგებლო იქნება მკვლევარები კონტროლირებადი და შეზღუდული მთავრობები (მაგალითად, საგადასახადო მონაცემები და საგანმანათლებლო მონაცემები) და კომპანიები (მაგალითად, შეკითხვებს საძიებო და სატელეფონო ზარი მეტა მონაცემები). აქედან გამომდინარე, ეს მონაცემები ვერ დაუყოვნებლივ ხელმისაწვდომი მკვლევართა უნივერსიტეტებში, და ყველაზე კი არ იქნება ხელმისაწვდომი მკვლევარები მთავრობები და კომპანიები.

ჩემი გამოცდილება, ბევრი მკვლევარი დაფუძნებული უნივერსიტეტებში ესმით წყარო ამ იმასთან. ეს მონაცემები არ მიუწვდომელი გამო ადამიანი კომპანიები და მთავრობები არიან სულელური, ზარმაცი, ან უგულო. უფრო მეტიც, არსებობს სერიოზული იურიდიულ, ტექნიკურ, ბიზნეს და ეთიკური ბარიერები, რომ თავიდან მონაცემების ხელმისაწვდომობა. მაგალითად, გარკვეული თვალსაზრისით-of-მომსახურების ხელშეკრულებები საიტებზე მხოლოდ საშუალებას იძლევა მონაცემების გამოიყენება თანამშრომლების ან მომსახურების გაუმჯობესების. ასე რომ, გარკვეული ფორმების მონაცემთა გაცვლის ვერ ამხელენ კომპანიებს ლეგიტიმური სარჩელი მომხმარებელს. ასევე არსებობს არსებითი ბიზნეს რისკების კომპანიების ჩართული გაზიარების მონაცემები. სცადეთ წარმოსადგენია, თუ როგორ საზოგადოებას რეაგირება თუ პირადი ძებნის მონაცემები შემთხვევით გაჟონა out from Google, როგორც ნაწილი უნივერსიტეტის კვლევითი პროექტი. ასეთი მონაცემები დარღვევით, თუ ექსტრემალური, შესაძლოა, კიდევ უფრო ეგზისტენციალურ საფრთხეს კომპანია. ასე რომ, Google და ყველაზე დიდი კომპანიების ძალიან რისკის averse გაზიარების მონაცემები მკვლევარები.

ფაქტობრივად, თითქმის ყველას, ვინც არის პოზიცია, რომ უზრუნველყოს დიდი რაოდენობით მონაცემები იცის ამბავი Abdur Chowdhury. 2006 წელს, როდესაც ის იყო უფროსი AOL კვლევა, მან შეგნებულად გაავრცელა, თუ რას ფიქრობდა იყო ანონიმური ძებნა queries საწყისი 650,000 AOL მომხმარებლებს სამეცნიერო საზოგადოებაში. რამდენადაც მე შემიძლია გითხრათ, Chowdhury და მკვლევარები დროს AOL კარგი ზრახვები და ეგონათ, რომ მათ ანონიმური მონაცემები. თუმცა, ისინი არასწორია. იგი სწრაფად აღმოაჩინა, რომ მონაცემები არ იყო, როგორც ანონიმური როგორც მკვლევარები ეგონა, და ჟურნალისტებს New York Times შეძლეს იდენტიფიცირება ადამიანი ნაკრებს მარტივია (Barbaro and Zeller Jr 2006) . მას შემდეგ, რაც ეს პრობლემა აღმოაჩინეს, Chowdhury ამოღებულ მონაცემების AOL ნახვა, მაგრამ უკვე გვიანი იყო. მონაცემები უკვე განათავსებთ სხვა საიტებზე, და ეს ალბათ მაინც იქნება შესაძლებელი, როდესაც თქვენ კითხულობს ამ წიგნს. იმის გამო, რომ მისი მცდელობა მონაცემების გაზიარება კვლევის საზოგადოების, Chowdhury დაითხოვეს და AOL მთავარი ტექნოლოგიების ოფიცერი გადადგა (Hafner 2006) . როგორც ეს მაგალითი გვიჩვენებს, შეღავათები კონკრეტული პირების შიგნით კომპანიები, რათა ხელი შეუწყოს მონაცემების ხელმისაწვდომობის საკმაოდ პატარა და უარესი სცენარით არის საშინელი.

კვლევის შეიძლება, თუმცა, შეღწევა მონაცემებით, რომელიც მიუწვდომელი საზოგადოების. მთავრობებს გვაქვს პროცედურები, რომელსაც მკვლევარები შეგიძლიათ მიყევით მიმართონ ხელმისაწვდომობა, და როგორც მაგალითები მოგვიანებით ამ თავში შოუ, მკვლევარები შეიძლება ზოგჯერ მოიპოვოს წვდომა კორპორაციულ მონაცემებს. მაგალითად, Einav et al. (2015) პარტნიორი მკვლევარმა eBay შესწავლა ციფრული კვალი ონლაინ აუქციონებზე. მე გაიგო უფრო მეტი კვლევა, რომელიც მოვიდა ამ თანამშრომლობის შემდეგ თავი (სექცია 2.4.3.2), მაგრამ მინდა აღვნიშნო, რომ ეს არის, რადგან მას ჰქონდა ოთხივე ინგრედიენტებს, რომ მე ვხედავ წარმატებული პარტნიორული: მკვლევარი ინტერესი, მკვლევარი შესაძლებლობების, კომპანიის ინტერესი და კომპანია შესაძლებლობებს. სხვა სიტყვებით, Einav და კოლეგებს აინტერესებდათ და შეუძლია შესწავლის ონლაინ აუქციონებზე. და, eBay იყო. თუმცა, მე ვნახე ბევრი შესაძლო თანამშრომლობის ვერ ახერხებენ, რადგან არც მკვლევარი ან კომპანია აკლდა ერთი ამ ინგრედიენტებს.

მაშინაც კი, თუ თქვენ ხართ შეუძლია განავითაროს პარტნიორობა ბიზნესის, თუმცა, არსებობს გარკვეული ხარვეზები თქვენთვის. პირველი, კითხვები, რომ თქვენ შეგიძლიათ ვთხოვთ მონაცემები სავარაუდოდ შეზღუდული; კომპანიები საეჭვოა დაუშვას კვლევა, რომელიც შესაძლოა მათ გამოიყურება ცუდი. მეორე, თქვენ ალბათ ვერ შეძლებს თქვენი მონაცემები სხვა მკვლევარები, რაც იმას ნიშნავს, რომ სხვა მკვლევარებმა ვერ შეძლებთ, გადაამოწმონ და გააფართოვოთ თქვენი შედეგები. გარდა ამისა, ამ პარტნიორობის შეგიძლიათ შექმნათ მინიმუმ გამოჩენა ინტერესთა კონფლიქტი, სადაც ადამიანი შეიძლება ვფიქრობ, რომ თქვენი შედეგების გავლენა იქონია თქვენს პარტნიორობა. ყველა ეს ნაკლი შეიძლება მიმართა, მაგრამ მნიშვნელოვანია, რომ იყოს ნათელი, რომ მუშაობის მონაცემები, რომელიც არ არის ხელმისაწვდომი ყველასთვის ორივე upsides და downsides.

წლის შემაჯამებელი, უამრავი დიდი მონაცემების მიუწვდომელი მკვლევარები. არსებობს სერიოზული იურიდიულ, ტექნიკურ, ბიზნეს და ეთიკური ბარიერები, რომ თავიდან მონაცემების ხელმისაწვდომობა, და ეს ბარიერები არ მიდიან. ეროვნულ მთავრობებს ზოგადად დადგენილი პროცედურების საშუალებას იძლევა მონაცემების ხელმისაწვდომობა, მაგრამ პროცესი შეიძლება იყოს უფრო ad hoc სახელმწიფო და ადგილობრივ დონეზე. გარდა ამისა, ზოგიერთ შემთხვევაში, მკვლევართა პარტნიორი კომპანიების მიიღოს მონაცემების ხელმისაწვდომობის, მაგრამ ეს შეგიძლიათ შექმნათ სხვადასხვა სახის პრობლემები მკვლევარები.