3.6.1 Zənginləşdirilmiş sorğu

Bu tərcümə kompüter ilə yaradılmışdır. ×

3.6.1 Zənginləşdirilmiş sorğu

Zənginləşdirilmiş sorğuda sorğu məlumatları bəzi mühüm ölçmələri ehtiva edən başqalarına malik olmayan böyük bir məlumat mənbəyi ətrafında kontekst qurur.

Anket məlumatlarını və böyük məlumat mənbələrini birləşdirmək üçün zənginləşdirilmiş sorğu çağıracağam bir prosesdir. Zənginləşdirilmiş sorğuda böyük bir məlumat mənbəyi bəzi əhəmiyyətli ölçüləri ehtiva edir, lakin digər ölçüləri yoxdur, beləliklə tədqiqatçı tədqiqatda bu itkin ölçmələri toplayır və sonra iki məlumat mənbəyini birləşdirir. Zənginləşdirilmiş sorğunun bir nümunəsi Burke and Kraut (2014) tərəfindən Burke and Kraut (2014) ildə Facebook-da qarşılıqlı əlaqənin dostluq gücünü artırdığına dair 3.2-ci bölmədə təsvir etdiyim işdir) öyrənilməsidir. Bu halda, Burke və Kraut Facebook məlumatları ilə sorğu məlumatlarını birləşdirdi.

Burke və Krautun işlədiyi yer, araşdırmaçıların adətən üzləşdiklərini soruşduqları iki böyük problemlə məşğul olmurdular. Birincisi, fərdi səviyyəli məlumat dəstələrini birləşdirən, rekord əlaqələr adlanan bir proses, bir verilənlər bazasında düzgün qeydin düzgün qeyd ilə uyğun olmasını təmin etmək üçün istifadə edilə bilən hər iki məlumat mənbəyində heç bir unikal identifikator olmadıqda çətin ola bilər digər datasetdə. Zənginləşdirilmiş sorğu ilə bağlı ikinci əsas problem, böyük məlumat mənbəyinin keyfiyyətinin tədqiqatçıların qiymətləndirməsi üçün tez-tez çətin olacağıdır, çünki məlumatların yaradıldığı proses mülkiyyətə malik ola bilər və 2-ci fəsildə təsvir olunan bir çox problemə həssas ola bilər. Başqa sözlə, zənginləşdirilmiş sorğu tez-tez sorğuların qeyri-müəyyən keyfiyyətdə olan qara qutu məlumat mənbələrinə səhv salınan birləşməsini ehtiva edir. Bununla belə, bu problemlərə baxmayaraq, zənginləşdirilmiş suallar Stephen Ansolabehere və Eitan Hers (2012) ABŞ-da səsvermə nümunələri ilə bağlı araşdırmalarında göstərilmişdir ki, mühüm araşdırmalar aparmaq üçün istifadə edilə bilər.

Seçicilərin fəallığı siyasət elmində geniş araşdırma mövzusu olmuşdur və keçmişdə tədqiqatçıların kimin səslərini və niyə ümumiyyətlə anket məlumatlarının təhlilinə əsaslanan anlayışı olmuşdur. ABŞ-da səs vermə, hər bir vətəndaşın səs verdiyini (əlbəttə ki, hökumət hər bir vətəndaşın kimə səs verdiyini yazmır) qeyd etməsi üçün qeyri-adi bir davranışdır. Uzun illərdir ki, bu hökumət səsvermə qeydləri ölkə daxilində müxtəlif yerli özünüidarəetmə orqanlarına səpələnmiş kağız şəklində təqdim olunmuşdur. Bu, siyasi alimlərin elektoratın tam bir şəklinə malik olması və insanların səs- (Ansolabehere and Hersh 2012) dair səsvermədə (Ansolabehere and Hersh 2012) səsvermədə gördükləri şeyləri müqayisə etmək üçün çox çətin, lakin qeyri-mümkün olmuşdur.

Lakin bu səsvermə qeydləri rəqəmləşdirilmişdir və bir sıra özəl şirkətlər sistemli olaraq bütün amerikalıların səsvermə davranışını ehtiva edən hərtərəfli master səsvermə faylları hazırlamaq üçün onları toplayıb birləşdirdilər. Ansolabehere və Hersh, bu şirkətlərdən biri olan Catalist LCC-lərlə əməkdaşlıq edərək seçicilərin daha yaxşı şəkillərini inkişaf etdirməyə kömək etmək üçün master səsvermə faylını istifadə edə bildi. Bundan əlavə, onların tədqiqatları məlumatların toplanması və uyğunlaşdırılmasında əhəmiyyətli qaynaqları sərmayə edən bir şirkət tərəfindən toplanan və tədqiq olunan rəqəmsal qeydlərə əsaslanırdı, çünki şirkətlərin köməyi olmadan və analoq qeydlərdən istifadə edilmiş əvvəlki səylərə görə bir sıra üstünlüklər təklif etdi.

Fəsil 2-də olan bir çox böyük məlumat mənbəyi kimi, Catalist master faylında Ansolabehere və Hershə lazım olan demoqrafik, tutum və davranış məlumatlarının əksəriyyəti daxil edilməmişdir. Əslində, xüsusilə, seçilmiş səsvermə davranışları ilə (məsələn, Kataliz bazasında olan məlumatlar) sorğularda səsvermədə olan səsvermə davranışını müqayisə etmək xüsusilə maraqlıdır. Beləliklə, Ansolabehere və Hersh, böyük bir ictimai sorğu kimi istədikləri məlumatları topladılar, bu fəsildə əvvəllər qeyd olunan CCES. Sonra məlumatları katalizatora verdilər və Katalist onlara təsdiq edilmiş səsvermə davranışını (Catalistdən), özünü göstərən səsvermə davranışını (CCES-dən) və respondentlərin demoqrafikası və münasibətlərindən (CCES-dən) birləşdirilmiş məlumatlar faylını geri verdi 3.13). Başqa sözlə desək, Ansolabehere və Hersh səsvermə məlumatlarının məlumatlarını anket məlumatları ilə birgə birləşdirdi ki, bu da məlumat mənbəyi ilə ayrı-ayrılıqda mümkün olmadı.

Şəkil 3.13: Ansolabehere və Hersh tərəfindən tədqiqatın şeması (2012). Əsas datafil yaratmaq üçün, katalizator bir çox müxtəlif mənbələrdən məlumatları birləşdirir və uyğunlaşdırır. Birləşmə prosesi nə qədər ehtiyatlı olursa olsun, orijinal məlumat mənbələrində səhvləri təbliğ edəcək və yeni səhvlər təqdim edəcək. İkinci bir səhv mənbəyidir ki, anket məlumatları və master məlumatlar arasında qeydə əlaqədir. Hər bir şəxs hər iki məlumat mənbəyində sabit, nadir identifikatora malik olsaydı, əlaqələr əhəmiyyətsiz olardı. Lakin, Catalist, bu halda adı, cinsi, doğum ili və ev ünvanı ilə qeyri-dəqiq identifikatorlar istifadə edərək əlaqəni etmək məcburiyyətində qaldı. Təəssüf ki, bir çox hallarda natamam və ya qeyri-dəqiq məlumatlar ola bilər; Homer Simpson adlı bir seçici Homer Jay Simpson, Homie J Simpson, hətta Homer Sampsin kimi görünə bilər. Katalizör master verilişindəki səhvlərin və rekor əlaqələrdə səhvlərin olmasına baxmayaraq, Ansolabehere və Hersh müxtəlif qiymətləndirmə tipləri vasitəsilə onların hesablamalarına olan inamını qura bildi.

Şəkil 3.13: Ansolabehere and Hersh (2012) tərəfindən tədqiqatın Ansolabehere and Hersh (2012) . Əsas datafil yaratmaq üçün, katalizator bir çox müxtəlif mənbələrdən məlumatları birləşdirir və uyğunlaşdırır. Birləşmə prosesi nə qədər ehtiyatlı olursa olsun, orijinal məlumat mənbələrində səhvləri təbliğ edəcək və yeni səhvlər təqdim edəcək. İkinci bir səhv mənbəyidir ki, anket məlumatları və master məlumatlar arasında qeydə əlaqədir. Hər bir şəxs hər iki məlumat mənbəyində sabit, nadir identifikatora malik olsaydı, əlaqələr əhəmiyyətsiz olardı. Lakin, Catalist, bu halda adı, cinsi, doğum ili və ev ünvanı ilə qeyri-dəqiq identifikatorlar istifadə edərək əlaqəni etmək məcburiyyətində qaldı. Təəssüf ki, bir çox hallarda natamam və ya qeyri-dəqiq məlumatlar ola bilər; Homer Simpson adlı bir seçici Homer Jay Simpson, Homie J Simpson, hətta Homer Sampsin kimi görünə bilər. Katalizör master verilişindəki səhvlərin və rekor əlaqələrdə səhvlərin olmasına baxmayaraq, Ansolabehere və Hersh müxtəlif qiymətləndirmə tipləri vasitəsilə onların hesablamalarına olan inamını qura bildi.

Birləşdirilmiş məlumat faylı ilə Ansolabehere və Hersh üç əhəmiyyətli nəticəyə gəldi. Birincisi, səsvermədən artıq hesabat yayılmır: səsvermənin təxminən yarısı səs verdiyini bildirir və birinin səs verdiyini bildirdikdə, səs verdikləri yalnız 80% şans var. İkincisi, artıq hesabat təsadüfi deyildir: yüksək gəlirli, yaxşı bilikli, ictimai işlərlə məşğul olan partizanlar arasında çox sayda hesabat yayılır. Başqa sözlə, səs verə biləcək ən çox səs verən insanlar da səsvermədə yalan danışırlar. Üçüncüsü, tənqidi olaraq, çox hesabatların sistematik xarakterinə görə seçicilər və qeyri-seçicilər arasındakı fərqlər yalnız anketlərdən daha kiçikdir. Məsələn, bakalavr dərəcəsi olanlar səs vermə ehtimalı 22 faiz çoxdur, lakin səs vermək üçün yalnız 10 faiz çoxdur. Bəlkə də təəccüblü deyil ki, səsvermədə kimin səs verdiyini proqnozlaşdırmaqdan daha çox səs verən (bu, tədqiqatçılar keçmişdə istifadə etdiyimiz məlumatlar) kimin səs verəcəyini proqnozlaşdıran mövcud resurs bazasına əsaslanan nəzəriyyələr daha yaxşıdır. Beləliklə, Ansolabehere and Hersh (2012) empirik Ansolabehere and Hersh (2012) səsverməni anlamaq və proqnozlaşdırmaq üçün yeni nəzəriyyələrə çağırır.

Amma bu nəticələrə nə qədər inanmalıyıq? Xatırladaq ki, bu nəticələr səhvsiz qara qutu məlumatlarını qeyri-müəyyən səhvlərlə bağlayır. Daha spesifik olaraq, nəticələr iki əsas addımla bağlıdır: (1) katalizatorun bir çox müxtəlif məlumat mənbəyini dəqiq bir əsas məlumat mənbəyi yaratmaq bacarığı və (2) katalizatorun anket məlumatlarını əsas məlumat mənbəyinə birləşdirməsi bacarığı. Bu addımların hər biri çətindir və hər iki addımdakı səhvlər tədqiqatçılara yanlış nəticələr gətirə bilər. Bununla belə, hər iki məlumatın işlənməsi və əlaqələndirilməsi Catalist şirkətinin davamlı olaraq mövcudluğu üçün vacibdir, belə ki, bu problemləri həll etmək üçün resursları investisiya edə bilər, tez-tez heç bir akademik tədqiqatçı uyğunlaşa bilməyəcək miqyasda. Ansolabehere və Hersh öz kağızlarında bu iki addımın nəticələrini yoxlamaq üçün bir sıra addımlar atırlar - bəziləri müəlliflik hüququ olsa da, bu çeklər anket məlumatlarını qara qutuda böyük məlumatlara bağlamaq istəyən digər tədqiqatçılar üçün faydalı ola bilər mənbələr.

Ümumi dərs tədqiqatçıları bu işdən necə istifadə edə bilərlər? Birincisi, həm böyük məlumat mənbələrinin zənginləşdirilməsi, həm də sorğu məlumatları ilə böyük məlumat mənbələri olan tədqiqat məlumatlarının zənginləşdirilməsindən böyük bir dəyər var (bu işi hər hansı bir şəkildə görə bilərsiniz). Bu iki məlumat mənbəyini birləşdirərək tədqiqatçılar fərdi şəkildə qeyri-mümkün bir şey edə bilirdilər. İkinci ümumi dərsdir ki, katalizatorun məlumatları kimi toplanmış, kommersiya məlumat mənbələri "yer həqiqəti" hesab edilməməli olsa da, bəzi hallarda faydalı ola bilər. Skeptiklər bəzən mütləq Truth ilə bu məcmu, kommersiya məlumat mənbəyini müqayisə edirlər və bu məlumat mənbələrinin qısa düşməsinə diqqət yetirirlər. Ancaq bu vəziyyətdə, skeptiklər səhv bir müqayisə edirlər: tədqiqatçıların istifadə etdiyi bütün məlumatlar mütləq Həqiqətə çatmaz. Bunun əvəzinə, məcmu, kommersiya məlumat mənbələrini mövcud olan digər məlumat mənbələri (məsələn, özünü göstərən səsvermə davranışı) ilə müqayisə etmək yaxşıdır, bu da daim səhvlərə malikdir. Nəhayət, Ansolabehere və Hershin tədqiqatının üçüncü ümumi dərsi bəzi hallarda tədqiqatçılar bir çox özəl şirkətin mürəkkəb sosial məlumatların toplanması və uyğunlaşdırılmasında böyük investisiyalardan faydalana biləcəyidir.