3.6.1 Հարստացված հարցադրում

Հարստացված հարցման ժամանակ հետազոտության տվյալները կառուցված են մի մեծ տվյալների աղբյուրի համատեքստում, որը պարունակում է որոշակի կարեւոր չափումներ, բայց չունեն ուրիշներ:

Հարցման տվյալների եւ տվյալների մեծ աղբյուրների համատեղման եղանակներից մեկն այն գործընթացն է, որը ես կխնդրեմ հարստացված հարցնել : Բավարարված հարցման մեջ մեծ տվյալների աղբյուրը պարունակում է որոշակի կարեւոր չափումներ, սակայն չունի այլ չափումներ, որպեսզի հետազոտողը հավաքի այդ անհայտ կորածների չափումները մի հետազոտության մեջ եւ հետո կապի երկու տվյալների աղբյուրները: Բոյկոտված հարցադրումներից մեկի օրինակն է Burke and Kraut (2014) ուսումնասիրությունը, Facebook- ի հետ փոխգործակցությունը մեծացնում է բարեկամության ուժը, որը նկարագրեցի 3.2 բաժնում: Այդ դեպքում, Բուրկը եւ Քրաութը զուգահեռ հետազոտել են Facebook- ի տվյալները:

Այնտեղ, որտեղ Բյորն ու Կրաուտը աշխատում էին, նշանակում էր, որ նրանք ստիպված չեն եղել զբաղվել երկու մեծ խնդիրների հետ, որոնք հետազոտողներն ավելի հարստացնում են, սովորաբար հարցնում են: Նախ, իրականացնելով անհատական ​​մակարդակի տվյալների հավաքածուների հետ միասին, ռեկորդային կապի կոչվող գործընթացը կարող է դժվար լինել, եթե երկու աղբյուրներում էլ նույնական նույնացուցիչ չկա, որը կարող է օգտագործվել, որպեսզի մի տվյալների հավաքածուի ճիշտ գրառումը համապատասխանի ճիշտ գրառմանը այլ տվյալների շարքում: Բավարարված հարցման երկրորդ հիմնական խնդիրն այն է, որ մեծ տվյալների աղբյուրի որակը հաճախ դժվար է գնահատել հետազոտողների համար, քանի որ տվյալ տվյալների ստեղծման գործընթացը կարող է գույքային լինել եւ կարող է ընկալվել 2-րդ գլխում նկարագրված խնդիրների մեծ մասի համար: Այլ կերպ ասած, հարստացված հարցումները հաճախակի կներկայացնեն անճանաչելիության սեւ արկղերի տվյալների աղբյուրների սխալի ուղղակի կապակցումը: Չնայած այս խնդիրներին, սակայն, հարստացված հարցումները կարող են օգտագործվել կարեւոր հետազոտություններ կատարելու համար, ինչպես ցույց են տվել Սթիվեն Անսոլաբեհերեն եւ Էիթան Հերշը (2012) Միացյալ Նահանգներում քվեարկության օրինաչափությունների վերաբերյալ իրենց հետազոտություններում:

Ընտրողների մասնակցությունը եղել է քաղաքական գիտության ծավալուն ուսումնասիրության առարկա, եւ նախկինում հետազոտողների կարծիքը, թե ով է ձայները եւ ինչու է ընդհանուր առմամբ հիմնված հետազոտության տվյալների վերլուծության վրա: Քվեարկությունը ԱՄՆ-ում, սակայն, անսովոր պահվածքն է, որ կառավարությունը արձանագրում է, թե արդյոք յուրաքանչյուր քաղաքացին քվեարկել է (իհարկե, կառավարությունը չի արձանագրել, թե ով է յուրաքանչյուր քաղաքացու ձայնը): Տարիներ շարունակ կառավարական քվեարկության արձանագրությունները հասանելի էին թղթային ձեւերի վրա, ցրված երկրում տարբեր տեղական կառավարման մարմիններում: Սա շատ դժվար էր, բայց ոչ անհնար էր, քանի որ քաղաքագետները ընտրողների ամբողջական պատկերացում ունենալու եւ համեմատելու այն մարդկանց, որոնք ասում են, քվեարկության մասին հարցումների ժամանակ իրենց փաստացի քվեարկության վարքագծով (Ansolabehere and Hersh 2012) :

Սակայն այս քվեարկության ձայնագրությունները այժմ թվայնացվել են, եւ մի շարք մասնավոր ընկերություններ համակարգայինորեն հավաքում եւ միավորում են դրանք համընդհանուր վարպետության քվեարկության ֆայլեր, որոնք պարունակում են բոլոր ամերիկացիների քվեարկության վարքագիծը: Ansolabehere- ը եւ Hersh- ը համագործակցում էին այդ ընկերություններից մեկի `Catalist LCC- ի հետ` իրենց վարպետ քվեարկության ֆայլը օգտագործելու համար `ընտրողների ավելի լավ պատկերացում կազմելու համար: Հետագայում, քանի որ նրանց ուսումնասիրությունը հիմնված էր թվային գրառումների վրա, որոնք հավաքագրվել եւ ղեկավարվել են մի ընկերության կողմից, որը տվյալների հավաքագրման եւ ներդաշնակեցման համար նշանակալի ռեսուրսներ է ներդրել, այն առաջարկել է մի շարք առավելություններ, որոնք կատարվել են առանց ընկերությունների օգնության եւ անալոգային արձանագրություններ օգտագործելու:

2-րդ գլխի մեծ տվյալների աղբյուրների նման, Catalist- ի վարպետը չի ներառել Անսոլաբեհերին եւ Հերշին անհրաժեշտ ժողովրդագրական, վերաբերմունքի եւ վարքային տեղեկությունների մեծ մասը: Փաստորեն, նրանք հատկապես հետաքրքրված էին քվեարկության ընթացքում ընտրված քվեարկության վարքագիծը վավերացված քվեարկության վարքագծի հետ համեմատելով (այսինքն `Կատալիզի տվյալների բազայում): Այսպիսով, Անսոլաբեհերը եւ Հերշը հավաքեցին այն տվյալները, որոնք նրանք ուզում էին որպես մեծ սոցիալական հետազոտություն, սույն գլխում հիշատակված CCES- ը: Այնուհետեւ նրանք իրենց տվյալները տվեցին Կատալիզիստին, իսկ Կատալիզիստը նրանց տվեց միաձուլված տվյալների ֆայլ, որը վավերացված քվեարկության վարքագիծը (Catalist- ից), ինքնագնահատված քվեարկության վարքագիծը (CCES- ից) եւ հարցվողների ժողովրդագրությունը եւ վերաբերմունքը (CCES- ից) 3.13): Այլ կերպ ասած, Ansolabehere- ն ու Hersh- ը համակցեցին քվեարկության տվյալների տվյալները հետազոտության տվյալների հետ, որպեսզի հետազոտություններ կատարվեն, որ անհնար է եղել որեւէ տվյալների աղբյուրի հետ:

Գծապատկեր 3.13. Ansolabehere- ի եւ Hersh- ի ուսումնասիրության սխեմատիկան (2012): Ստեղծագործական տվյալների բազա ստեղծելու համար Catalist- ը համակցում եւ ներդաշնակացնում է տեղեկատվություն տարբեր աղբյուրներից: Միաձուլման այս գործընթացը, անկախ նրանից, թե որքան զգույշ է, կխթանի սխալները սկզբնական տվյալների աղբյուրներում եւ կներկայացնեն նոր սխալներ: Սխալների երկրորդ աղբյուրը հետազոտության տվյալները եւ հիմնական տվյալների բազայի միջեւ արձանագրված կապն է: Եթե ​​յուրաքանչյուր անձ ունի տվյալների աղբյուրներից կայուն, յուրահատուկ նույնականացնող, ապա կապը կլինի չնչին: Սակայն, Catalist- ը պետք է կատարեր կապը, օգտագործելով անկատար նույնացուցիչները, այս դեպքում `անունը, սեռը, ծննդյան տարեթիվը եւ տան հասցեն: Ցավոք, շատ դեպքերում կարող է լինել թերի կամ անճշտ տեղեկատվություն: Հոմեր Սիմփսոնի անվան ընտրողը կարող է հայտնվել Հոմեր Ջեյ Սիմփսոնի, Homie J Simpson- ի կամ նույնիսկ Homer Sampsin- ի մասին: Չնայած կատալիզացիայի վարպետի տվյալների բազայի սխալների եւ ռեկորդային կապի սխալների հնարավորությանը, Ansolabehere- ն ու Hersh- ը կարողացան վստահել իրենց գնահատականներին մի քանի տարբեր տեսակի ստուգումների միջոցով:

Գծապատկեր 3.13. Ansolabehere and Hersh (2012) ի ուսումնասիրության սխեմատիկան Ansolabehere and Hersh (2012) : Ստեղծագործական տվյալների բազա ստեղծելու համար Catalist- ը համակցում եւ ներդաշնակացնում է տեղեկատվություն տարբեր աղբյուրներից: Միաձուլման այս գործընթացը, անկախ նրանից, թե որքան զգույշ է, կխթանի սխալները սկզբնական տվյալների աղբյուրներում եւ կներկայացնեն նոր սխալներ: Սխալների երկրորդ աղբյուրը հետազոտության տվյալները եւ հիմնական տվյալների բազայի միջեւ արձանագրված կապն է: Եթե ​​յուրաքանչյուր անձ ունի տվյալների աղբյուրներից կայուն, յուրահատուկ նույնականացնող, ապա կապը կլինի չնչին: Սակայն, Catalist- ը պետք է կատարեր կապը, օգտագործելով անկատար նույնացուցիչները, այս դեպքում `անունը, սեռը, ծննդյան տարեթիվը եւ տան հասցեն: Ցավոք, շատ դեպքերում կարող է լինել թերի կամ անճշտ տեղեկատվություն: Հոմեր Սիմփսոնի անվան ընտրողը կարող է հայտնվել Հոմեր Ջեյ Սիմփսոնի, Homie J Simpson- ի կամ նույնիսկ Homer Sampsin- ի մասին: Չնայած կատալիզացիայի վարպետի տվյալների բազայի սխալների եւ ռեկորդային կապի սխալների հնարավորությանը, Ansolabehere- ն ու Hersh- ը կարողացան վստահել իրենց գնահատականներին մի քանի տարբեր տեսակի ստուգումների միջոցով:

Անսոլաբեհերի եւ Հերշի համատեղ տվյալների հետ միասին եկել են երեք կարեւոր եզրակացություն: Նախ, քվեարկության մասին հաշվետվությունները շատ տարածված են. Ոչ քվեատուփերի գրեթե կեսը քվեարկել է, իսկ եթե որեւէ մեկը քվեարկել է քվեարկելու մասին, ապա միայն 80% պատահականություն կա, որ իրենք քվեարկել են: Երկրորդ, գերազանց հաշվետու լինելը պատահական չէ. Գերակշռող հաշվետվությունները ավելի բարձր են, եկամտահարկի, լավ կրթված, կուսակցական գործիչների մասնակցությամբ: Այլ կերպ ասած, քվեարկության մասնակիցների մեծամասնությունը, հավանաբար, քվեարկելու իրավունք ունեն: Երրորդ, եւ առավել քննադատաբար, ավելի քան հաշվետվողականության համակարգված բնույթի պատճառով ընտրողների եւ անկարգությունների միջեւ իրական տարբերությունները փոքր են, քան նրանք հայտնվում են հարցումներից: Օրինակ, բակալավրի աստիճան ունեցողները մոտ 22 տոկոսից ավելի են քվեարկելու մասին, բայց քվեարկության մասին միայն 10 տոկոսն է ավելի շատ հավանական: Պարզվում է, գուցե զարմանալի չէ, որ քվեարկության առկա ռեսուրսների վրա հիմնված տեսությունները ավելի լավն են կանխատեսում, թե ով է քվեարկելու քվեարկությունը (ինչը նախկինում օգտագործված տվյալները), քան նրանք, ովքեր կանխատեսում են, թե ով է իրականում քվեարկել: Այսպիսով, Ansolabehere and Hersh (2012) Էմպիրիկ հայտնագործությունը կոչվում է նոր տեսություններ `հասկանալու եւ կանխատեսելու համար:

Բայց որքան պետք է վստահ լինենք այդ արդյունքներին: Հիշեք, որ այս արդյունքները կախված են սխալի դրսեւորումներից, սեւ արկղերի տվյալների հետ կապված անհայտ սխալների քանակով: Ավելի կոնկրետ, արդյունքները վկայում են երկու հիմնական քայլերի մասին. 1) Catalist- ի կարողությունը մի քանի անհամապատասխան տվյալների աղբյուրների համատեղման ունակություն, ճշգրիտ վարպետության տվյալների բազա ստեղծելու համար, եւ (2) Catalist- ի ունակությունը հետազոտության տվյալները տիեզերական տվյալների բազայի հետ կապելու ունակությունը: Այս քայլերից յուրաքանչյուրը դժվար է, եւ ցանկացած քայլում սխալները կարող են հանգեցնել հետազոտողներին սխալ եզրակացությունների: Այնուամենայնիվ, տվյալների վերամշակման եւ կապի համար կարեւոր են Կալալիստի գոյության գոյությունը որպես ընկերության, այնպես որ այն կարող է ներդնել ռեսուրսներ այդ խնդիրների լուծման մեջ, հաճախ այն մասշտաբով, որ որեւէ ակադեմիական հետազոտող չի կարող համընկնել: Անսոլաբեհերը եւ Հերշը իրենց թղթի մեջ անցնում են մի շարք քայլեր, ստուգելու այս երկու քայլերի արդյունքները, թեեւ նրանցից ոմանք գույքային են, եւ այդ ստուգումները կարող են օգտակար լինել այլ հետազոտողների համար, որոնք ցանկանում են հարցման տվյալները կապել սեւ արկղի մեծ տվյալների աղբյուրները:

Որոնք են ընդհանուր դասերի հետազոտողները այս ուսումնասիրությունից: Նախ, ահռելի արժեք կա `ինչպես մեծ տվյալների աղբյուրները հարստացնելով հարցման տվյալների հետ եւ հետազոտության տվյալները մեծ տվյալների աղբյուրներով հարստացնելուց (դուք կարող եք տեսնել այս ուսումնասիրության որեւէ ձեւով): Այս երկու տվյալների աղբյուրները համադրելով, հետազոտողները կարողացան անել մի բան, որը անհնար էր անհատապես: Երկրորդ ընդհանուր դասը այն է, որ թեեւ համախմբված, առեւտրային տվյալների աղբյուրները, ինչպիսիք են Catalist- ի տվյալները, չպետք է համարվեն «հիմք ճշմարտություն», որոշ դեպքերում դրանք կարող են օգտակար լինել: Skeptics- ը երբեմն համեմատում է այս համախոհ, առեւտրային տվյալների աղբյուրը բացարձակ ճշմարտությամբ եւ նշում է, որ այդ տվյալների աղբյուրները կարճ են: Այնուամենայնիվ, այս դեպքում թերահավատները սխալ են համեմատում. Բոլոր տվյալները, որոնք հետազոտողներն օգտագործում են, բացարձակ ճշմարտության պակաս չեն: Փոխարենը, ավելի լավ է համեմատել ագրեգատված, առեւտրային տվյալների աղբյուրները մատչելի այլ աղբյուրների հետ (օրինակ, ինքնագնահատված քվեարկության վարքագիծը), որն անընդհատ սխալներ ունի: Վերջապես, Ansolabehere- ի եւ Hersh- ի ուսումնասիրության երրորդ ընդհանուր դասը այն է, որ որոշ դեպքերում հետազոտողները կարող են օգտվել այն հսկայական ներդրումներից, որ շատ մասնավոր ընկերություններ կատարում են համալիր սոցիալական տվյալների հավաքագրման եւ ներդաշնակեցման մեջ: