2.3.4 არასრულყოფილი

რაც არ უნდა დიდი თქვენი დიდი მონაცემები, ალბათ არ აქვს ინფორმაცია გსურთ.

უმრავლესობის დიდი წყაროები არასრულია , იმ გაგებით, რომ მათ არ აქვთ ინფორმაცია, რომ გსურთ თქვენი კვლევისთვის. ეს არის მონაცემების საერთო მახასიათებელი, რომელიც კვლევების გარდა სხვა მიზნებისთვის შეიქმნა. ბევრმა სოციოლოგმა უკვე განიცადა გამოცდილება შეუსაბამობის საქმეში, როგორიც არის არსებული კვლევა, რომელიც არ იყო საჭირო კითხვაზე. სამწუხაროდ, არასრულფასოვნების პრობლემები უფრო დიდია, ვიდრე დიდი მონაცემები. ჩემი გამოცდილების მიხედვით, დიდი მონაცემები უშედეგოდ იკავებს სოციალურ კვლევებში სამი სახის ინფორმაციას: მონაწილეთა შესახებ დემოგრაფიული ინფორმაცია, სხვა პლატფორმების ქცევა და თეორიული მშენებლობების განხორციელების მონაცემები.

სამი სახის არასრულყოფილი, არასრული მონაცემების პრობლემა თეორიული აშენების ოპტიმიზაციისთვის უმძიმესია. და ჩემი გამოცდილება, ხშირად შემთხვევით შეუმჩნეველია. თეორიული აშკარაა, რომ თეორიული კონსტრუქციები აბსტრაქტული მოსაზრებებია, რომ თეორიული მშენებლობის კვლევა და ფუნქციონირება სოციალურ მეცნიერებს ნიშნავს, რათა შემოგვთავაზებინათ დამკვირვებელ მონაცემებთან ერთად. სამწუხაროდ, ეს მარტივი ჟღერადობის პროცესი ხშირად საკმაოდ რთულია. მაგალითად, მოდი წარმოვიდგინოთ, რომ ემპირიულად შეამოწმოთ სავარაუდოდ მარტივი საჩივარი, რომ ადამიანები, რომლებიც უფრო ჭკვიანი არიან, მიიღებენ უფრო მეტ ფულს. ამ სარჩელის შესამოწმებლად, საჭიროა "სადაზვერვო" გავზომოთ. მაგრამ რა არის დაზვერვა? Gardner (2011) ამტკიცებდა, რომ არსებობს რვა სხვადასხვა სახის ინტელექტი. და არსებობს პროცედურები, რომლებიც ზუსტად ააცილებენ დაზვერვის რომელიმე ფორმას? ფსიქოლოგთა მიერ უზარმაზარი რაოდენობით მუშაობის მიუხედავად, ეს კითხვები ჯერ კიდევ არ აქვს ცალსახა პასუხი.

ამრიგად, შედარებით მარტივი საჩივარი - ადამიანები, რომლებიც უფრო ჭკვიანი არიან, უფრო მეტ ფულს - ძნელია შეფასდეს ემპირიულად, რადგან რთულია მონაცემთა თეორიული სტრუქტურების შესრულება. თეორიული კონსტრუქციების სხვა მაგალითები, რომლებიც მნიშვნელოვანია, მაგრამ "რთულია", "სოციალური კაპიტალი" და "დემოკრატია". სოციოლოგებმა გამოაცხადონ მატჩი თეორიული კონსტრუქციებისა და მონაცემების მშენებლობას (Cronbach and Meehl 1955) . როგორც ამ მოკლე ჩამონათვალი აჩვენა, მშენებლობის მოქმედების პრობლემაა ის, რომ სოციალური მეცნიერები ძალიან დიდი ხნის განმავლობაში იბრძვიან. მაგრამ ჩემი გამოცდილება, მშენებლობის მოქმედების პრობლემები კიდევ უფრო დიდია, ვიდრე იმ მონაცემებთან მუშაობისას, რომლებიც არ შექმნილა კვლევის მიზნებისათვის (Lazer 2015) .

კვლევის შედეგების შეფასებისას, მშენებლობის მოქმედების შესაფასებლად ერთი სწრაფი და სასარგებლო გზაა შედეგის მიღება, რაც, როგორც წესი, გამოხატულია თვალსაზრისით და ხელახლა გამოხატავს გამოყენებულ მონაცემებს. მაგალითად, განვიხილოთ ორი ჰიპოთეტური გამოკვლევა, რომლებიც აცხადებენ, რომ ადამიანები, რომლებიც უფრო ჭკვიანი არიან, მიიღებენ უფრო მეტ ფულს. პირველ კვლევაში მკვლევარმა დაადგინა, რომ ადამიანები, რომლებმაც კარგად გაიტანეს რავენ პროგრესული მატრიცების ტესტი - ანალიზური დაზვერვის კარგად შესწავლილი გამოცდა (Carpenter, Just, and Shell 1990) - მათი საგადასახადო დეკლარაციის უფრო მაღალი შემოსავლები. მეორე კვლევაში, მკვლევარმა დაადგინა, რომ Twitter- ზე მცხოვრები ადამიანები, რომლებიც აღარ იყენებდნენ უფრო მეტ სიტყვას, უფრო მეტად ითვალისწინებდნენ ფუფუნების ბრენდებს. ორივე შემთხვევაში, ამ მკვლევარებმა შეიძლება განაცხადონ, რომ მათ აჩვენეს, რომ ადამიანები, რომლებიც უფრო ჭკვიანი არიან, მიიღებენ უფრო მეტ ფულს. თუმცა, პირველი შესწავლის დროს თეორიული აშენებები კარგად იმოქმედებს მონაცემებით, მეორე კი არ არის. გარდა ამისა, როგორც ეს მაგალითი გვიჩვენებს, უფრო მეტ მონაცემებს ავტომატურად არ წყვეტს პრობლემების მშენებლობას. მეორე კვლევის შედეგებს ეჭვი უნდა ეპარებოდეთ თუ არა მასში მილიონი tweets, მილიარდი tweets, ან ტრილიონი tweets. მკვლევარები არ იცნობენ მშენებლობის მოქმედების იდეას, ცხრილი 2.2 ითვალისწინებს კვლევების ზოგიერთი მაგალითს, რომლებიც ახორციელებენ თეორიული ნაგებობების ციფრულ კვალი მონაცემებს.

ცხრილი 2.2: თეორიული ნაგებობების ფუნქციონირებისთვის გამოყენებული ციფრული ხელსაწყოების მაგალითები
მონაცემთა წყარო თეორიული მშენებლობა ლიტერატურა
ელ-ფოსტის ჟურნალი უნივერსიტეტიდან (მეტა-მონაცემები მხოლოდ) სოციალური ურთიერთობები Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
სოციალური მედია შეტყობინება Weibo- ზე სამოქალაქო ჩართულობა Zhang (2016)
ელფოსტის ჟურნალი ფირმა (მეტა-მონაცემები და სრული ტექსტი) კულტურული შემადგენლობა ორგანიზაციაში Srivastava et al. (2017)

მიუხედავად იმისა, რომ თეორიული აშენების აღსადგენად არასრული მონაცემების პრობლემა საკმაოდ რთულია, არსებობს საერთო გადაწყვეტილებების სხვა საერთო ტიპების საერთო გადაჭრა: არასრული დემოგრაფიული ინფორმაცია და სხვა პლატფორმების ქცევის არასრული ინფორმაცია. პირველი გამოსავალი არის რეალურად შეგროვება მონაცემები გჭირდებათ; მე გეტყვით იმაზე, რომ მე -3 თავი, როდესაც მე გეტყვით კვლევების შესახებ. მეორე მთავარი გამოსავალი არის ის, რასაც მონაცემები მეცნიერებს უწოდებენ მომხმარებლის ატრიბუტის დასკვნას და სოციალურ მეცნიერებს მოუწოდებენ imputation . ამ მიდგომით, მკვლევარებმა გამოიყენონ ინფორმაცია, რომ ზოგიერთ ადამიანს აქვს სხვა ადამიანების ატრიბუტები. მესამე შესაძლო გადაწყვეტაა მრავალი მონაცემთა წყაროების შერწყმა. ეს პროცესი ხშირად უწოდებენ ჩანაწერის კავშირი . ამ პროცესისთვის ჩემი საყვარელი მეტაფორა დაიწერა Dunn (1946) , პირველი ჩანაწერის პირველივე ნაწილის მიხედვით,

"მსოფლიოში ყოველი ადამიანი ქმნის სიცოცხლის წიგნს. ეს წიგნი იწყება დაბადებით და მთავრდება სიკვდილით. მისი გვერდები შედგება ძირითადი მოვლენების შესახებ. ჩანაწერის კავშირი წარმოადგენს ამ წიგნის გვერდების შესაქმნელად პროცესისთვის მოცემულ პროცესს.

როდესაც Dunn წერდა, რომ გავლის იგი წარმოიდგენდა, რომ წიგნი ცხოვრება შეიძლება შეიცავდეს ძირითადი ცხოვრების მოვლენები, როგორიცაა დაბადების, ქორწინების, განქორწინების და სიკვდილი. თუმცა, ახლა, რომ ხალხის შესახებ ძალიან ბევრი ინფორმაცია არის ჩაწერილი, სიცოცხლის წიგნი წარმოუდგენლად შეიძლება იყოს დეტალური პორტრეტი, თუ ეს სხვადასხვა გვერდები (ანუ ჩვენი ციფრული კვალი) შეიძლება იყოს შეკრული. სიცოცხლის ეს წიგნი შეიძლება მკვლევარებისთვის დიდი რესურსი იყოს. მაგრამ, შესაძლოა, ასევე შეიძლება ჩაითვალოს მონაცემთა ბაზის ჩაშლის (Ohm 2010) , რომელიც შეიძლება გამოყენებულ იქნას ყველა სახის არაეთიკური მიზნებისათვის, როგორც მე აღწერს მე -6 თავი (ეთიკა).