3.6.1 გამდიდრებული კითხვა

გამდიდრებული კითხვა, კვლევის მონაცემები აშენებს კონტექსტს დიდი მონაცემთა წყაროდან, რომელიც შეიცავს მნიშვნელოვან გაზომვებს, მაგრამ სხვებს არ გააჩნიათ.

კვლევის მონაცემთა და დიდი მონაცემთა წყაროების შერწყმის ერთ-ერთი საშუალება არის პროცესი, რომელიც მე მოვუწოდებ გამდიდრებულს . გამდიდრებული მოთხოვნით, დიდი მონაცემთა წყარო შეიცავს რამდენიმე მნიშვნელოვან გაზომვას, მაგრამ აკლია სხვა გაზომვები, რის გამოც მკვლევარი ამ გამონაკლისს შეაგროვებს კვლევაში და შემდეგ აკავშირებს ორ მონაცემთა წყაროებს. გამდიდრებული ითხოვის ერთ-ერთი მაგალითია Burke and Kraut (2014) მიერ ჩატარებული კვლევის შესახებ, თუ Facebook- ზე ინტერაქცია იზრდება მეგობრობის სიძლიერეზე, რომელიც აღწერილია 3.2-ე ნაწილში). ამ შემთხვევაში, ბურკემ და კრაუტმა შეისწავლეს Facebook- ის ჟურნალების მონაცემები.

თუმცა, ბერკე და კრაუტი იმუშავებდნენ იმას, რომ მათ არ მოუწევდათ ორი დიდი პრობლემა, რომ მკვლევარები აკეთებდნენ გამდიდრებულს, რომლებიც ხშირად ემზადებიან. პირველი, ფაქტობრივად, აკავშირებს ინდივიდუალური დონის მონაცემების კომპლექტი, პროცესი, რომელსაც უწოდებენ ჩანაწერთა კავშირი , შეიძლება რთული იყოს, თუ არ არსებობს უნიკალური იდენტიფიკატორი ორივე მონაცემთა წყაროში, რომელიც შეიძლება გამოყენებულ იქნას იმისათვის, რომ უზრუნველყოს სწორი ჩანაწერი ერთ მონაცემთა ნაკრებს, სხვა მონაცემთა ნაკრებს. მეორე ძირითადი პრობლემა გამდიდრებული ითხოვს ის, რომ დიდი მონაცემთა წყაროების ხარისხი ხშირად მკვლევარებს შეაფასებს, რადგან პროცესი, რომლის მეშვეობითაც მონაცემები შეიქმნება, შეიძლება იყოს საკუთრება და შეიძლება იყოს მგრძნობიარე თავი II ნაწილში აღწერილი მრავალი პრობლემის მიმართ. სხვა სიტყვებით რომ ვთქვათ, გამდიდრებული მოთხოვნა ითვალისწინებს არასწორი ხარისხის შავ-ყუთში არსებული მონაცემების არასწორად გამოხატვას. ამ პრობლემების მიუხედავად, გამდიდრებული კითხვა შეიძლება გამოყენებულ იქნას მნიშვნელოვანი კვლევის ჩატარებაზე, როგორც ამას ადასტურებს სტივენ ანასლაბერი და ეიტენის ჰერშ (2012) მიერ მათი კვლევა ამერიკის შეერთებულ შტატებში კენჭისყრის ნიმუშებზე.

ამომრჩეველთა აქტივობა პოლიტიკურ მეცნიერებაში ფართო კვლევის საგანია და წარსულში მკვლევარებმა გაიგეს, თუ ვინ ხმას და რატომ არის ზოგადად კვლევის შედეგების ანალიზი. თუმცა, ამერიკის შეერთებულ შტატებში ხმის მიცემა უჩვეულოა, რომ მთავრობა აფიქსირებს თუ არა თითოეული მოქალაქის ხმა (რა თქმა უნდა, ხელისუფლება არ აფიქსირებს, თუ ვინ არის თითოეული მოქალაქის ხმა). მრავალი წლის განმავლობაში, ამ სახელისუფლებო კენჭისყრის ჩანაწერები შესაძლებელი იყო ქაღალდის ფორმებზე, რომლებიც სხვადასხვა ქვეყნის ადგილობრივ ოფისებში მიმოფანტული იყო. ეს ძალიან რთულია, მაგრამ არა შეუძლებელი გახდა, რომ პოლიტოლოგებს ჰქონდეთ ამომრჩეველთა სრული სურათი და შეადარონ რას ფიქრობენ ხალხმა არჩევნებში კენჭისყრის ფაქტზე ხმის მიცემის (Ansolabehere and Hersh 2012) .

მაგრამ ეს კენჭისყრის ჩანაწერები გაციფრებული იქნა და მთელი რიგი კერძო კომპანიები სისტემურად აგროვებენ და გაერთიანდნენ მათ, რომ ამომწურავი სამაგისტრო კენჭისყრის ფაილები წარმოადგინონ, რომელიც შეიცავს ყველა ამერიკელ კენჭისყრას. Ansolabehere- მა და Hersh- მა ერთ-ერთმა კომპანიამ - Catalist LCC- მა მიიღო თავისი სამაგისტრო ხმის მიცემის უფლების გამოყენება, რათა მოხდეს ამომრჩეველთა უკეთესი სურათის შემუშავება. გარდა ამისა, იმის გამო, რომ მათი კვლევა დაეყრდნო ციფრულ ჩანაწერებს, რომლებიც აგროვებდა კომპანიას, რომელმაც მონაცემთა შეგროვებისა და ჰარმონიზაციის მნიშვნელოვანი რესურსი განახორციელა, მან შესთავაზა რიგი უპირატესობები წინა წლების განმავლობაში, რაც განხორციელდა კომპანიების დახმარების გარეშე და ანალოგური ჩანაწერების გამოყენებით.

როგორც ბევრი დიდი წყარო წყაროების მე -2 თავი, Catalyst სამაგისტრო ფაილი არ შეიცავს ბევრი დემოგრაფიული, attitudinal და ქცევითი ინფორმაცია, რომ Ansolabehere და Hersh საჭირო. სინამდვილეში, ისინი განსაკუთრებით დაინტერესდნენ საარჩევნო კენჭისყრის ქცევის გამოკვლევის შედეგების დაკვირვებასთან ერთად. ასე რომ, ანსოლაბერჰემ და ჰერსმა შეაგროვეს მონაცემები, რომელთაც დიდი სურვილი ჰქონდათ, რომ თავიანთ სოციალურ გამოკვლევას, CCES- ს, ამ თავით ადრე მოხსენიებულიყვნენ. შემდეგ მათ კატალონიისთვის მიაწოდეს ინფორმაცია, და კატალონიმ მიანიჭა შერწყმებული მონაცემების ფაილი, რომელიც მოიცავდა კენჭისყრის გადამოწმებას (კატალოგებისგან), თვითნებურად ჩატარებული კენჭისყრის ქცევა (CCES) და რესპონდენტთა დემოგრაფიული და დამოკიდებულებები (CCES) 3.13). სხვა სიტყვებით რომ ვთქვათ, ანსოლაბერი და ჰერშმა შეადგინა კენჭისყრის ჩანაწერების მონაცემები კვლევის მონაცემებით, რათა კვლევა შეუძლებელი აღმოჩნდეს ინდივიდუალურად.

გრაფიკი 3.13: ანსოლაბერი და ჰერშის კვლევა (2012). სამაგისტრო datafile- ის შესაქმნელად, კატალონიტი აერთიანებს და ინფორმაციას სხვადასხვა წყაროდან ჰარმონიზებს. შერწყმის ეს პროცესი, რამდენად ფრთხილად არ უნდა იყოს პროვოგაცია შეცდომები თავდაპირველ მონაცემთა წყაროებში და გააცნობს ახალ შეცდომებს. შეცდომების მეორე წყარო წარმოადგენს კვლევის მონაცემებსა და სამაგისტრო მონაცემთა ფაილს შორის ჩანაწერებს. თუ ყველა ადამიანს ჰქონდა სტაბილური, უნიკალური იდენტიფიკატორი ორივე წყაროში, მაშინ კავშირი იქნება ტრივიალური. თუმცა, კატალოგს უნდა შეექმნა არასრულყოფილი იდენტიფიკატორების გამოყენებით, ამ შემთხვევაში სახელი, სქესი, დაბადების წელი და სახლის მისამართი. სამწუხაროდ, ხშირ შემთხვევაში შეიძლება არასრული ან არასწორი ინფორმაცია იყოს; ამომრჩეველმა, ჰომეროსი სიმონმა შეიძლება ჰომეროსი ჯეიმ სიმონსონი, ჰომეი ჯიმ სიმპსონი, ან ჰომერონ სანინსონიც კი გამოხატოს. მიუხედავად იმისა, რომ კატალოგის სამაგისტრო მონაცემების შეცდომის პოტენციალი და რეკორდულ კავშირში შეცდომები, Ansolabehere და Hersh შეეძლოთ ნდობის განმტკიცება სხვადასხვა შეფასების მეშვეობით.

გრაფიკი 3.13: Ansolabehere and Hersh (2012) კვლევა Ansolabehere and Hersh (2012) . სამაგისტრო datafile- ის შესაქმნელად, კატალონიტი აერთიანებს და ინფორმაციას სხვადასხვა წყაროდან ჰარმონიზებს. შერწყმის ეს პროცესი, რამდენად ფრთხილად არ უნდა იყოს პროვოგაცია შეცდომები თავდაპირველ მონაცემთა წყაროებში და გააცნობს ახალ შეცდომებს. შეცდომების მეორე წყარო წარმოადგენს კვლევის მონაცემებსა და სამაგისტრო მონაცემთა ფაილს შორის ჩანაწერებს. თუ ყველა ადამიანს ჰქონდა სტაბილური, უნიკალური იდენტიფიკატორი ორივე წყაროში, მაშინ კავშირი იქნება ტრივიალური. თუმცა, კატალოგს უნდა შეექმნა არასრულყოფილი იდენტიფიკატორების გამოყენებით, ამ შემთხვევაში სახელი, სქესი, დაბადების წელი და სახლის მისამართი. სამწუხაროდ, ხშირ შემთხვევაში შეიძლება არასრული ან არასწორი ინფორმაცია იყოს; ამომრჩეველმა, ჰომეროსი სიმონმა შეიძლება ჰომეროსი ჯეიმ სიმონსონი, ჰომეი ჯიმ სიმპსონი, ან ჰომერონ სანინსონიც კი გამოხატოს. მიუხედავად იმისა, რომ კატალოგის სამაგისტრო მონაცემების შეცდომის პოტენციალი და რეკორდულ კავშირში შეცდომები, Ansolabehere და Hersh შეეძლოთ ნდობის განმტკიცება სხვადასხვა შეფასების მეშვეობით.

მათი კომბინირებული მონაცემებით, Ansolabehere და Hersh მოვიდა სამი მნიშვნელოვანი დასკვნები. პირველ რიგში, კენჭისყრის გაშუქება არის ყოვლისმომცველი: ამომრჩეველთა თითქმის ნახევარი ხმის მიცემის შესახებ და თუ ვინმე კენჭისყრა იტყობინებოდა, მხოლოდ 80% -ის შანსია, რომ მათ რეალურად დაუჭირა მხარი. მეორე, ზედმეტი ანგარიშგება არ არის შემთხვევითი: ზედმეტად ანგარიშგება უფრო ხშირია მაღალი შემოსავლის მქონე, კარგად განათლებული, პარტიზანებს შორის, რომლებიც საზოგადოებრივ საქმეებში არიან ჩართული. სხვა სიტყვებით რომ ვთქვათ, ყველაზე მეტად ის ხალხი, ვინც კენჭისყრაზე კენჭისყრაზე მიუთითებს. მესამე და ყველაზე კრიტიკულად, ზედმეტად ანგარიშვალდებულების სისტემური ხასიათიდან გამომდინარე, ამომრჩევლებსა და არასამთავრობო ორგანიზატორებს შორის განსხვავებები უფრო მცირეა, ვიდრე ისინი მხოლოდ გამოკვლევებიდან ჩანს. მაგალითად, ბაკალავრიატის მქონე პირები დაახლოებით 22 პროცენტული პუნქტია, რომლებიც კენჭისყრის გაშუქებას უფრო მეტ ინფორმაციას აძლევენ, მაგრამ მხოლოდ 10 პროცენტული პუნქტი უფრო რეალურად ხმას აძლევენ. გამოდის, რომ გასაკვირი არ არის, რომ კენჭისყრის არსებული რესურსით დაფუძნებული თეორიები ბევრად უკეთესია, თუ ვინ იტყვის კენჭისყრის შესახებ (რაც მონაცემები მკვლევარებს წარსულში იყენებენ), ვიდრე ისინი წინასწარმეტყველებენ, ვინ რეალურად ხმას. ამრიგად, Ansolabehere and Hersh (2012) ემპირიული დასკვნა მოუწოდებს ახალ თეორიებს კენჭისყრის გასაგებად და პროგნოზირება.

მაგრამ რამდენად უნდა გვწამდეს ეს შედეგები? გახსოვდეთ, ეს შედეგები დამოკიდებულია შეცდომით მიდრეკილება დაბლოკვის ყუთში უცნობი რაოდენობით შეცდომით. უფრო კონკრეტულად, შედეგები ორ ძირითად საფეხურზეა: (1) კატალისტის უნარი, შეუთავსოს მრავალი განსხვავებული მონაცემები, რათა წარმოადგინოს ზუსტი სამაგისტრო მონაცემთა ფაილი და (2) კატალოგის უნარი მისი მასტერ მონაცემების ფაილთან დაკავშირების მიზნით. თითოეული ეს ნაბიჯი ძნელია და შეცდომები არც ერთ ნაბიჯს შეიძლება მიჰყვეს მკვლევარებს არასწორი დასკვნებისკენ. თუმცა, ორივე მონაცემთა დამუშავება და აკავშირებს კრიტიკოსთა მუდმივი არსებობა კრიტიკულად წარმოადგენს კომპანიას, ამიტომ მას შეუძლია ინვესტიციების განხორციელება ამ პრობლემების გადაჭრაში, ხშირად იმ მასშტაბით, რომ აკადემიური მკვლევარი ვერ შეასრულა. მათი ქაღალდზე Ansolabehere და Hersh გადიან რამდენიმე ნაბიჯით, რათა შეამოწმოთ ამ ორი ნაბიჯის შედეგები, მიუხედავად იმისა, რომ ზოგიერთი მათგანი საკუთრებისაა და ეს კვლევები შესაძლოა სასარგებლო იყოს სხვა მკვლევარებისთვის, რომლებიც დაკავშირებულია კვლევის მონაცემების ბმულით დიდი რაოდენობით წყაროები.

რა არის ზოგადი გაკვეთილი მკვლევარები ამ კვლევისაგან? პირველ რიგში, არსებობს უზარმაზარი ღირებულება, როგორც დიდი მონაცემების წყაროების გამოკვლევა კვლევის მონაცემებით და დიდი მონაცემთა წყაროებით გამოკითხვის მონაცემების გამდიდრებისგან (შეგიძლიათ იხილოთ ეს კვლევა ან გზა). ამ ორი მონაცემთა წყაროების შერწყმით, მკვლევარებმა შეძლეს ისეთი რამის გაკეთება, რაც შეუძლებელი იყო ინდივიდუალურად. მეორე ზოგადი გაკვეთილი ის არის, რომ მიუხედავად იმისა, რომ აგრეგირებული, კომერციული მონაცემთა წყაროები, როგორიცაა კატალოგის მონაცემები, არ შეიძლება ჩაითვალოს "ჭეშმარიტი ჭეშმარიტება", ზოგიერთ შემთხვევაში ისინი სასარგებლოა. სკეპტიკოსები ხანდახან შევადარებთ ამ აგრეგირებულ, კომერციულ მონაცემთა წყაროს აბსოლუტური სიმართლით და აღნიშნავს, რომ ეს მონაცემები ძნელად ხვდება. თუმცა, ამ შემთხვევაში, სკეპტიკოსები არასწორი შედარებით აკეთებენ: ყველა მონაცემი, რომელიც მკვლევარებს იყენებენ აბსოლუტური ჭეშმარიტების დაცემით. ნაცვლად ამისა, უკეთესია, შევადაროთ აგრეგირებული, კომერციული მონაცემების წყაროები სხვა ხელმისაწვდომი წყაროებით (მაგ., თვითმმართველობის ინფორმაციით კენჭისყრის ქცევა), რაც უცვლელია შეცდომებიც. საბოლოო ჯამში, ანსოლაბერისა და ჰერშის კვლევის მესამე ზოგადი გაკვეთილი ის არის, რომ ზოგიერთ შემთხვევაში მკვლევარებს შეუძლია ისარგებლოს უზარმაზარი ინვესტიციებისგან, რაც ბევრი კერძო კომპანია იღებს კომპლექსურ სოციალურ მონაცემთა შეგროვებისა და ჰარმონიზაციის პროცესს.