2.3.2.1 არასრული

არ აქვს მნიშვნელობა, თუ რამდენად "დიდი" თქვენი "დიდი მონაცემები" ეს, ალბათ, არ აქვს ინფორმაცია გსურთ.

ყველაზე დიდი მონაცემთა წყაროები არასრული, იმ გაგებით, რომ მათ არ აქვთ ინფორმაცია, რომ თქვენ გსურთ თქვენი კვლევა. ეს არის საერთო თვისება მონაცემები, რომელიც შეიქმნა სხვა მიზნით, გარდა კვლევა. ბევრი სოციალური მეცნიერები უკვე ჰქონდა გამოცდილება საქმე არასრულყოფილებითა, როგორიცაა არსებული კვლევის რომ არ ვთხოვო კითხვა უნდოდა. სამწუხაროდ, პრობლემები დაუსრულებლობის უფრო უკიდურესი დიდი მონაცემები. ჩემი გამოცდილება, დიდი მონაცემები tends უნდა იყოს დაკარგული სამი სახის ინფორმაცია სასარგებლო სოციალური კვლევა: დემოგრაფიული, ქცევის სხვა პლატფორმების და მონაცემთა განხორციელების თეორიული აშენებს.

სამივე ეს ფორმები დაუსრულებლობის წიგნში კვლევის Gueorgi Kossinets და Duncan Watts (2006) შესახებ ევოლუცია სოციალურ ქსელში უნივერსიტეტში. Kossinets და Watts დაიწყო ელ ჟურნალი უნივერსიტეტი, რომელიც ჰქონდა ზუსტი ინფორმაცია, რომელიც გაგზავნილი წერილებს, ვისაც რა დროს (მკვლევარები არ ჰქონდეს შინაარსის წერილებს). ეს ელ ჩანაწერები ჟღერს, როგორც საოცარი ნაკრებს, მაგრამ ისინი, მიუხედავად მათი ზომა და დეტალიზაცია-ფუნდამენტურად არასრული. მაგალითად, ელ ჟურნალი არ შეიცავს მონაცემებს დემოგრაფიული მახასიათებლები სტუდენტები, როგორიცაა სქესისა და ასაკის. გარდა ამისა, ელ ჟურნალი არ შეიცავს ინფორმაციას კომუნიკაციის სხვა საშუალებებით, როგორიცაა სატელეფონო ზარები, ტექსტური შეტყობინება, ან face-to-face საუბარი. და ბოლოს, ელ ჟურნალები პირდაპირ არ მოიცავს ინფორმაციას ურთიერთობები, თეორიული კონსტრუქტების ბევრი არსებული თეორიები. მოგვიანებით თავი, როცა საუბრობენ კვლევის სტრატეგია, დაინახავთ, თუ როგორ Kossinets და Watts მოგვარდეს ეს პრობლემა.

სამი სახის დაუსრულებლობის, პრობლემა არასრული მონაცემების განხორციელების თეორიული კონსტრუქტი არის უმძიმესი მოსაგვარებლად, და ჩემი გამოცდილება, ხშირად შემთხვევით დააფიქსირეს მონაცემები მეცნიერები. უხეშად რომ ვთქვათ, თეორიული აშენებს აბსტრაქტული იდეები, რომ სოციალური მეცნიერების შესწავლა, მაგრამ, სამწუხაროდ, ამ აშენებს შეიძლება ყოველთვის არ იყოს ცალსახად განისაზღვრება და იზომება. მაგალითად, წარმოიდგინეთ, ცდილობს ემპირიულად გამოსცადოს როგორც ჩანს, მარტივი, აცხადებს, რომ ადამიანები, რომლებიც უფრო ჭკვიანი მიიღოთ მეტი ფული. იმისათვის, რომ მოხდეს ამ სარჩელის თქვენ უნდა გავზომოთ "ინტელექტი." მაგრამ, რა არის ინტელექტი? მაგალითად, Gardner (2011) ამტკიცებდა, რომ არსებობს რვა სხვადასხვა ფორმები დაზვერვის. და არსებობს პროცედურები, რომელიც შეიძლება ზუსტად გავზომოთ რომელიმე ამ ფორმები დაზვერვის? მიუხედავად იმისა, რომ უზარმაზარი რაოდენობით სამუშაო ფსიქოლოგები, ამ კითხვებზე ჯერ კიდევ არ არის ცალსახა პასუხი. ამდენად, თუნდაც შედარებით მარტივი საჩივრის ადამიანები, რომლებიც უფრო ჭკვიანი მიიღოთ უფრო მეტი თანხა, შეიძლება იყოს რთული, რათა შეაფასოს ემპირიულად იმიტომ, რომ ეს შეიძლება იყოს რთული განხორციელების თეორიული კონსტრუქტების მონაცემები. სხვა მაგალითები თეორიული აშენებს რომ მნიშვნელოვანია, მაგრამ იმისთვის, რომ განვახორციელოთ მოიცავს "ნორმებს", "სოციალური კაპიტალი" და "დემოკრატია". სოციალური მეცნიერები უწოდებენ მატჩს თეორიული აშენებს და მონაცემების შენება მოქმედების (Cronbach and Meehl 1955) . და, როგორც ამ სიაში აშენებს ვარაუდობს, მშენებლობა მოქმედების არის პრობლემა, რომ სოციალური მეცნიერები ბრძოლა ძალიან დიდი ხნის განმავლობაში, მაშინაც კი, როცა ისინი მუშაობენ მონაცემები, რომელიც შეგროვდა მიზნით კვლევა. როდესაც ვმუშაობთ შეგროვებული მონაცემები სხვა მიზნით, გარდა კვლევა, პრობლემების შენება მოქმედების კიდევ უფრო რთული (Lazer 2015) .

როდესაც თქვენ კითხულობს კვლევა, ერთი სწრაფი და სასარგებლო გზა შეაფასოს შეშფოთება შენება მოქმედების მიიღოს მთავარი პრეტენზია ქაღალდი, რომელიც, როგორც წესი, გამოიხატება აშენებს, და ხელახლა გამოხატოს ის თვალსაზრისით გამოყენებული მონაცემები. მაგალითად, განვიხილოთ ორი ჰიპოთეტური კვლევები, რომლებიც აცხადებენ, რომ დავანახოთ, რომ უფრო ჭკვიანი ადამიანი მიიღოთ უფრო მეტი თანხა:

  • კვლევა 1: ადამიანები, რომლებიც გატანა, ასევე Raven პროგრესული მატრიცები ტესტი კარგად სწავლობდა გამოცდა ანალიტიკური დაზვერვის (Carpenter, Just, and Shell 1990) -Have უმაღლესი ცნობით შემოსავლები მათი საგადასახადო დეკლარაციების
  • სასწავლო 2: ადამიანი on Twitter, რომელიც გამოიყენება აღარ სიტყვა უფრო სავარაუდოა, რომ აღარაფერი ვთქვათ ლუქს ბრენდების

ორივე შემთხვევაში, მკვლევარები ვერ ამტკიცებენ, რომ ისინი აჩვენა, რომ უფრო ჭკვიანი ადამიანი მიიღოთ მეტი ფული. მაგრამ, პირველ სასწავლო თეორიული აშენებს კარგად ამუშავდა მონაცემები, ხოლო მეორე ისინი არ არიან. გარდა ამისა, როგორც ეს მაგალითი გვიჩვენებს, მეტი მონაცემები ავტომატურად არ გადაჭრა პრობლემა შენება მოქმედების. თქვენ უნდა ეჭვი შედეგების შესწავლა 2 თუ არა იგი ჩართული მილიონი tweets, მილიარდი tweets, ან ტრილიონი tweets. მკვლევარები არ იცნობს იდეა შენება მოქმედების, მაგიდის 2.2 მაგალითები, რომლებიც კვლევების operationalized თეორიული კონსტრუქტი გამოყენებით ციფრული კვალი მონაცემები.

მაგიდის 2.2: მაგალითები ციფრული კვალი, რომლებიც გამოიყენება როგორც ღონისძიებები უფრო აბსტრაქტული თეორიული კონცეფციები. სოციალური მეცნიერები უწოდებენ ამ მატჩის შენება მოქმედების და ეს არის მთავარი გამოწვევა გამოყენებით დიდი მონაცემთა წყაროები სოციალური კვლევის (Lazer 2015) .
ციფრული კვალი თეორიული კონსტრუქცია Citation
ელ ჟურნალი უნივერსიტეტის (მეტა-მონაცემების მხოლოდ) სოციალური ურთიერთობები Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
სოციალური მედიის ფორუმზე on Weibo სამოქალაქო ჩართულობის Zhang (2016)
ელ ჟურნალი ფირმა (მეტა-მონაცემები და სრული ტექსტი) კულტურული fit ორგანიზაცია Goldberg et al. (2015)

მიუხედავად იმისა, რომ პრობლემა არასრული მონაცემების Operationalizing თეორიული კონსტრუქტი არის საკმაოდ რთული უნდა გადაწყვიტოს, არსებობს სამი საერთო გადაწყვეტილებების პრობლემა არასრული დემოგრაფიული ინფორმაცია და არასრული ინფორმაციის ქცევის სხვა პლატფორმებზე. პირველი არის ის, რომ რეალურად შეაგროვოს მონაცემები გჭირდებათ; მე გეტყვით შესახებ მაგალითია, რომ თავი 3, როდესაც გეტყვით შესახებ კვლევები. სამწუხაროდ, ამ სახის მონაცემების შეგროვება ყოველთვის არ არის შესაძლებელი. მეორე ძირითადი გამოსავალი არის რა მონაცემები მეცნიერები მოვუწოდებთ შესახებ ატრიბუტი დასკვნა და რა სოციალური მეცნიერები უწოდებენ imputation. ამ მიდგომით, მკვლევარები ინფორმაცია, რომ მათ აქვთ ზოგიერთი ადამიანი, რომ დასკვნის ატრიბუტები სხვა ადამიანი. მესამე შესაძლებელია გადაწყვეტა ერთი გამოიყენება Kossinets და Watts იყო გაერთიანდება მრავალჯერადი მონაცემები. ეს პროცესი უწოდებენ შერწყმის ან ჩანაწერის კავშირი. ჩემი საყვარელი მეტაფორა ამ პროცესის შემოთავაზებული იყო ძალიან პირველი პუნქტის პირველი ქაღალდის ოდესმე დაწერილი ჩანაწერი კავშირი (Dunn 1946) :

"ყოველ ადამიანს მსოფლიოში ქმნის წიგნი ცხოვრება. ეს წიგნი იწყება დაბადებიდან და მთავრდება სიკვდილით. მისი გვერდები შედგება ჩანაწერები პრინციპის მოვლენების ცხოვრებაში. ჩანაწერების კავშირი არის სახელი გადაეცა პროცესი შეკრებაზე ამ წიგნის ფურცლებზე შევიდა მოცულობა. "

ეს პასაჟი დაიწერა 1946 წელს, და იმ დროს, ხალხი ფიქრობს, რომ წიგნი ცხოვრება შეიძლება იყოს ძირითადი ცხოვრების მოვლენები, როგორიცაა დაბადების, ქორწინების, განქორწინების და სიკვდილი. თუმცა, ახლა რომ იმდენად ინფორმაციას ადამიანი არის ჩაწერილი, წიგნი ცხოვრება შეიძლება იყოს წარმოუდგენლად დეტალური პორტრეტი, თუ იმ სხვადასხვა გვერდებზე (ანუ, ჩვენი ციფრული კვალი), შეიძლება იყოს ვალდებული ერთად. ეს წიგნი ცხოვრება შეიძლება იყოს დიდი რესურსი მკვლევარები. თუმცა, წიგნი ცხოვრება შეიძლება ასევე მოუწოდა მონაცემთა ბაზის ჩაშლის (Ohm 2010) , რომელიც შეიძლება იქნას გამოყენებული ყველა სახის არაეთიკური მიზნებისათვის, როგორც ეს აღწერილია უფრო ქვემოთ როცა საუბრობენ მგრძნობიარე ბუნებას მიერ შეგროვებული ინფორმაცია დიდი მონაცემთა წყაროებს ქვემოთ და მე -6 თავში (ეთიკის).