2.3.1.1 დიდი

დიდი მონაცემების არის საშუალება ბოლომდე; ისინი არ არიან თვითმიზანს.

პირველი სამი კარგი მახასიათებლები დიდი მონაცემების ყველაზე განიხილეს: ეს არის დიდი მონაცემები. ეს მონაცემები შეიძლება დიდი სამი სხვადასხვა გზა: ბევრი ადამიანი, უამრავი ინფორმაცია სულზე, ან ბევრი დაკვირვების დროთა განმავლობაში. რომელსაც დიდი ნაკრებს საშუალებას რაიმე კონკრეტული ტიპის კვლევის საზომი არაერთგვაროვნება, სწავლობს იშვიათი შემთხვევა, გამოვლენის მცირე განსხვავებები, და მიღების მიზეზობრივი შეფასებით ზედამხედველობითი მონაცემები. იგი ასევე ჩანს, რომ გამოიწვიოს კონკრეტული ტიპის sloppiness.

პირველი, რაც, რომლის ზომა არის განსაკუთრებით სასარგებლოა მოძრაობს მიღმა საშუალოდ რათა შეფასებები კონკრეტული ქვეჯგუფებში. მაგალითად, Gary King, Jennifer Pan და Molly Roberts (2013) იზომება ალბათობა იმისა, რომ სოციალური მედიის ფორუმზე ჩინეთის ცენზურა მთავრობის მიერ. თავად ამ საშუალო ალბათობა წაშლა არ არის ძალიან გამოსადეგი გაგება, რის გამოც ხელისუფლება ცენზურის რაღაც ფორუმზე მაგრამ არა სხვები. მაგრამ, რადგან მათი ნაკრებს შორის 11 მილიონი შეტყობინება, მეფე და კოლეგებს ასევე წარმოებული შეფასებით ალბათობა ცენზურა შეტყობინება 85 ცალკე კატეგორიაში (მაგალითად, პორნოგრაფიის, ტიბეტი, და მოძრაობის პეკინი). შედარებით ალბათობა ცენზურა ფორუმზე სხვადასხვა კატეგორიები, მათ შეძლეს გავიგოთ, თუ როგორ და რატომ მთავრობის ცენზურის გარკვეული სახის შეტყობინება. 11 ათასი შეტყობინება (ვიდრე 11 მილიონი გამოხმაურება), ისინი არ ყოფილა შეუძლია აწარმოოს ამ კატეგორიაში კონკრეტული შეფასებები.

მეორე, ზომა არის განსაკუთრებით სასარგებლოა სწავლობს იშვიათი მოვლენები. მაგალითად, Goel და კოლეგები (2015) სურდა შესწავლა სხვადასხვა გზები, რომ tweets შეიძლება წასვლა ვირუსული. იმის გამო, რომ დიდი კასკადის ხელახლა tweets ძალიან იშვიათია, დაახლოებით ერთი 3000-მათ საჭიროების შესწავლა მეტი მილიარდი tweets, რათა საკმარისი დიდი კასკადები მათი ანალიზი.

მესამე, დიდი მონაცემების საშუალებას მკვლევარებს აღმოაჩინოს პატარა განსხვავებები. სინამდვილეში, ბევრი აქცენტი დიდი მონაცემები ინდუსტრიაში არის ამ პატარა განსხვავებები: საიმედოდ გამოვლენის განსხვავება 1% და 1.1% click გზით განაკვეთები რეკლამა შეიძლება გარდაქმნა მილიონი დოლარის დამატებითი შემოსავალი. ზოგიერთ სამეცნიერო პარამეტრები, როგორიცაა მცირე განსხვავებები არ შეიძლება იყოს კონკრეტული მნიშვნელოვანი (თუნდაც სტატისტიკურად მნიშვნელოვანი). თუმცა, ზოგიერთ პოლიტიკის პარამეტრების, როგორიცაა მცირე განსხვავებები შეიძლება გახდეს მნიშვნელოვანი როდესაც გახსნილია საერთო. მაგალითად, თუ არსებობს ორი საზოგადოებრივი ჯანმრთელობის ინტერვენციების და ერთი ოდნავ უფრო ეფექტურია, ვიდრე სხვა, მაშინ გადასვლის უფრო ეფექტური ჩარევის შეიძლება დასრულდეს up გადარჩენის დამატებით ათასობით სიცოცხლე.

და ბოლოს, დიდი მონაცემები კომპლექტი მნიშვნელოვნად გაზრდის ჩვენს შესაძლებლობებს, რათა მიზეზობრივი შეფასებით ზედამხედველობითი მონაცემები. მიუხედავად იმისა, რომ დიდი მონაცემების არ ძირეულად შეცვლის პრობლემა მიღების მიზეზობრივი დასკვნა ეხლა ზედამხედველობითი მონაცემები, შესაბამისი და ბუნებრივი ექსპერიმენტი ორ ტექნიკას, რომელიც მკვლევარებმა შეიმუშავეს მიღების მიზეზობრივი პრეტენზიები ზედამხედველობითი მონაცემები ორივე დიდად ისარგებლოს დიდი მონაცემების. მე ახსნას და ასახავს ამ სარჩელის უფრო დეტალურად მოგვიანებით ამ თავში, როცა აღწერს კვლევის სტრატეგია.

მიუხედავად იმისა, რომ bigness ზოგადად კარგი ქონება როდესაც გამოიყენება სწორად, მე შევნიშნე, რომ bigness ხშირად იწვევს კონცეპტუალური შეცდომა. გარკვეული მიზეზების გამო, bigness, როგორც ჩანს, გამოიწვიოს მკვლევარები იგნორირება როგორ მათი მონაცემები გამომუშავებული. მიუხედავად იმისა, რომ bigness აკეთებს შემცირება საჭირო ფიქრი შემთხვევითი შეცდომა, ის რეალურად ზრდის საჭიროება ფიქრი სისტემური შეცდომები, სახის შეცდომები, რომ მე აღწერს უფრო ქვემოთ, რომელიც წარმოიქმნება მიკერძოებულობა რა მონაცემები იქმნება და შეგროვდა. პატარა ნაკრებს, როგორც შემთხვევითი შეცდომა და სისტემური შეცდომა შეიძლება იყოს მნიშვნელოვანი, მაგრამ დიდი ნაკრებს შემთხვევითი შეცდომა შეიძლება საშუალოდ მოშორებით და სისტემატური შეცდომა დომინირებს. მკვლევარებმა, რომლებიც არ ვფიქრობ, რომ სისტემატური შეცდომა დასრულდება up გამოყენებით მათი დიდი მონაცემების მისაღებად ზუსტი ხარჯთაღრიცხვა არასწორი რამ; ისინი იქნება ზუსტად არასწორი (McFarland and McFarland 2015) .