3.6.1 درخواست غنی شده

در مورد درخواست غنی شده، داده های نظرسنجی زمینه ای را در اطراف یک منبع داده بزرگ فراهم می کند که حاوی مقادیر مهم است اما دیگران را از بین نمی برد.

یکی از راه های ترکیب داده ها و داده های تحقیق و منابع داده های بزرگ، فرایندی است که من با فراخوان فراوان تماس می گیرم. در درخواست غنی شده، یک منبع داده بزرگ شامل برخی از اندازه گیری های مهم است اما دارای اندازه گیری های دیگر است، بنابراین محقق این اندازه گیری های از دست رفته در یک نظرسنجی را جمع آوری و سپس دو منبع داده را با هم پیوند می دهد. یک مثال از درخواست غنی شده مطالعه Burke and Kraut (2014) درباره اینکه آیا ارتباط با فیس بوک باعث افزایش قدرت دوستی می شود، که در بخش 3.2 آن را شرح دادم، است. در این مورد، برک و کراوت داده های نظرسنجی را با داده های فیس بوک ترکیب کردند.

با این حال، محیطی که بورک و کراوت در آن کار می کردند، به این معنی نیست که آنها مجبور نیستند با دو مشکل بزرگ که محققان غنی شده درخواست می کنند، معمولا با آن مواجه شوند. اولا، در حقیقت پیاده سازی مجموعه داده ها در سطح فردی، یک فرایند به نام پیوند پیوندی می تواند دشوار باشد اگر هیچ یک از شناسه های منحصر به فرد در هر دو منبع داده وجود ندارد که می تواند مورد استفاده قرار گیرد تا اطمینان حاصل شود که رکورد صحیح در یک مجموعه داده با رکورد صحیح در مجموعه داده های دیگر. مشکل اصلی دوم با درخواست غنی شده این است که کیفیت منبع داده بزرگ اغلب برای محققان دشوار خواهد بود زیرا روند که از طریق آن داده ها ایجاد می شود ممکن است اختصاصی باشد و می تواند به بسیاری از مشکلات مطرح شده در فصل 2 حساس باشد. به عبارت دیگر، درخواست غنی شده اغلب شامل پیوند خطا از نظرسنجی به منابع داده سیاه جعبه از کیفیت ناشناخته است. علیرغم این مشکلات، درخواست های غنی شده می تواند برای انجام تحقیقات مهم مورد استفاده قرار گیرد، همان گونه که توسط استفان انسولابیره و ایتان هرش (2012) در تحقیقات خود در مورد الگوهای رأی گیری در ایالات متحده نشان داده شده است.

مشارکت رای دهندگان موضوع تحقیق گسترده در علوم سیاسی بوده است و در گذشته، درک محققان از رای دادن و به طور کلی بر اساس تجزیه و تحلیل داده های نظرسنجی بوده است. با این حال، رای دادن در ایالات متحده، رفتار غیر معمولی است که دولت می گوید که هر کدام از شهروندان رای داده اند (البته دولت هر کدام از شهروندان را رأی نمی دهد). برای سال های بسیاری، این پرونده های رای گیری دولت در دسترس بر روی فرم های کاغذی، پراکنده در ادارات مختلف محلی در سراسر کشور است. این مسئله باعث شد که دانشمندان علوم سیاسی تصویر کاملی از رای دهندگان و مقایسۀ آنچه مردم در نظرسنجی ها درباره رای گیری با رفتار رای دهی خود می گویند، انجام شود (Ansolabehere and Hersh 2012) .

اما این پرونده های رأی گیری دیجیتالی شده اند و تعدادی از شرکت های خصوصی به صورت سیستماتیک جمع آوری و ادغام شده اند تا پرونده های رأی گیری جامع صاحب نظران را شامل می شوند که شامل رفتار رای گیری همه آمریکایی ها می شود. Ansolabehere و Hersh با یکی از این شرکت های LCC-Catalist مشارکت می کنند تا از پرونده رای گیری خود برای کمک به ایجاد یک تصویر بهتر از رای دهندگان استفاده کنند. علاوه بر این، چون مطالعات آنها بر روی پرونده های دیجیتالی جمع آوری شده و توسط شرکت هایی که منابع قابل توجهی را در جمع آوری و هماهنگ سازی داده ها سرمایه گذاری کرده بودند، تکیه می کرد، مزایایی را نسبت به تلاش های قبلی که بدون کمک شرکت ها و با استفاده از سوابق آنالوگ انجام می شد، ارائه می داد.

مانند بسیاری از منابع داده بزرگ در فصل 2، فایل اصلی کارشناسی کاتالیست شامل اطلاعات زیادی از اطلاعات جمعیت شناختی، نگرشی و رفتاری که Ansolabehere و هرش مورد نیاز بود را شامل نمی شد. در حقیقت، آنها به ویژه در مقایسه با رفتار رای دهی گزارش شده در نظرسنجی با رفتار رأی اعتباری (یعنی اطلاعات در پایگاه داده کاتالیست) علاقه مند بودند. بنابراین Ansolabehere و هرش اطلاعاتی را که آنها به عنوان یک بررسی بزرگ اجتماعی، CCES، که قبلا در این فصل ذکر کرده بودند، جمع آوری کردند. سپس آنها اطلاعات خود را به کاتالیست دادند و کاتالیست به آنها یک فایل داده های ادغام شده را که شامل رفتار معتبر رای دهی (از کاتالیست)، رفتار رای گیری خود گزارش شده (از CCES) و جمعیت شناسی و نگرش پاسخ دهندگان (از CCES) 3.13) به عبارت دیگر Ansolabehere و Hersh داده های رأی رأی را با داده های نظرسنجی ترکیب کردند تا تحقیقاتی انجام شود که با هر منبع داده ای به صورت جداگانه امکان پذیر نبود.

شکل 3.13: مقدمه ای بر مطالعه توسط Ansolabehere و Hersh (2012). کاتالیست برای ایجاد فایل داده اصلی، اطلاعات را از منابع مختلف متمایز می کند و هماهنگ می کند. این فرآیند ادغام، بدون توجه به اینکه چقدر دقت لازم است، اشتباهات را در منابع داده اصلی منتشر می کند و خطاهای جدیدی را معرفی می کند. دومین منبع خطا ارتباط پیوندی بین داده های نظرسنجی و فایل اصلی است. اگر هر شخصی دارای یک شناسه منسجم و پایدار در هر دو منبع داده بود، پیوند آن بی اهمیت خواهد بود. اما، کاتالیست مجبور بود که پیوند را با استفاده از شناسه های ناقص، در این مورد نام، جنسیت، سال تولد و آدرس منزل انجام دهد. متاسفانه، برای بسیاری از موارد ممکن است اطلاعات ناقص یا نادرست باشد؛ یک رای دهنده به نام هومر سیمپسون ممکن است به نظر هومر جی سیمپسون، همی ج سیمپسون یا حتی هومر سمپسین ظاهر شود. با وجود احتمال خطا در فایل اصلی master کاتالیست و خطاهای پیوند ثبت، Ansolabehere و هرش توانستند اعتماد به نفس خود را از طریق چندین نوع چک انجام دهند.

شکل 3.13: Ansolabehere and Hersh (2012) بر مطالعه توسط Ansolabehere and Hersh (2012) . کاتالیست برای ایجاد فایل داده اصلی، اطلاعات را از منابع مختلف متمایز می کند و هماهنگ می کند. این فرآیند ادغام، بدون توجه به اینکه چقدر دقت لازم است، اشتباهات را در منابع داده اصلی منتشر می کند و خطاهای جدیدی را معرفی می کند. دومین منبع خطا ارتباط پیوندی بین داده های نظرسنجی و فایل اصلی است. اگر هر شخصی دارای یک شناسه منسجم و پایدار در هر دو منبع داده بود، پیوند آن بی اهمیت خواهد بود. اما، کاتالیست مجبور بود که پیوند را با استفاده از شناسه های ناقص، در این مورد نام، جنسیت، سال تولد و آدرس منزل انجام دهد. متاسفانه، برای بسیاری از موارد ممکن است اطلاعات ناقص یا نادرست باشد؛ یک رای دهنده به نام هومر سیمپسون ممکن است به نظر هومر جی سیمپسون، همی ج سیمپسون یا حتی هومر سمپسین ظاهر شود. با وجود احتمال خطا در فایل اصلی master کاتالیست و خطاهای پیوند ثبت، Ansolabehere و هرش توانستند اعتماد به نفس خود را از طریق چندین نوع چک انجام دهند.

با فایل داده های ترکیبی خود، Ansolabehere و Hersh به سه نتیجه مهم دست یافتند. اولا، بیش از حد گزارش رأی گیری شایع است: تقریبا نیمی از افراد بدون رای گیری گزارش رأی داده اند، و اگر کسی گزارش رأی گیری داده است، تنها 80 درصد احتمال رأی دادن وجود دارد. دوم، گزارش بیش از حد تصادفی تصادفی نیست: گزارش بیش از حد در میان افراد با درآمد بالا، تحصیل کرده و حزبی است که در امور عمومی شرکت دارند. به عبارت دیگر، افرادی که بیشترین رای را دارند نیز احتمالا در مورد رأی گیری دروغ می گویند. سوم و مهمتر از همه، به دلیل ماهیت سیستماتیک گزارشگری بیش از حد، تفاوتهای واقعی بین رای دهندگان و افراد غیر مقیم کمتر از آنچه که فقط از نظر سنجی ها به نظر می رسد، می باشد. به عنوان مثال، کسانی که دارای مدرک لیسانس هستند حدود 22 درصد احتمال رای دادن را دارند، اما تنها 10 درصد احتمال رای دادن دارند. به نظر می رسد، شاید جای تعجب نیست که نظریه های مبتنی بر منابع مبتنی بر رای گیری در پیش بینی دقیق رای دهندگان (که داده هایی است که محققان در گذشته استفاده کرده اند) بسیار بهتر از پیش بینی کنندگان واقعی است. بنابراین، یافته های تجربی Ansolabehere and Hersh (2012) نظریه های جدید را برای درک و پیش بینی رای گیری می Ansolabehere and Hersh (2012) .

اما چقدر باید به این نتایج اعتماد کنیم؟ به یاد داشته باشید، این نتایج به وابستگی خطا به اطلاعات جعبه سیاه با مقدار ناشناخته خطا بستگی دارد. به طور خاص، نتایج حاصل از این دو مرحله کلیدی است: (1) توانایی کاتالیست برای ترکیب بسیاری از منابع متفاوتی از داده ها برای تولید یک فایل data master اصلی و (2) توانایی کاتالیست برای پیوند داده های نظرسنجی به فایل داده اصلی خود. هر یک از این مراحل دشوار است و اشتباهات در هر مرحله می تواند محققان را به نتیجه اشتباه منتهی کند. با این حال، هر دو پردازش داده ها و ارتباطات برای ادامه وجود کاتالیست به عنوان یک شرکت حیاتی است، بنابراین می تواند منابع را در حل این مشکلات سرمایه گذاری کند، اغلب در مقیاسی که هیچ پژوهشگر دانشگاهی نمی تواند مطابقت داشته باشد. در مقاله خود Ansolabehere و Hersh از چند مرحله برای بررسی نتایج این دو مرحله استفاده می کنند - حتی اگر برخی از آنها اختصاصی باشند - و این چک ها ممکن است برای سایر محققانی که مایل به پیوند داده ها به داده های بزرگ داده سیاهپوستان منابع

محققان درس های عمومی چه می توانند از این مطالعه استفاده کنند؟ اولا ارزش فوق العاده ای هم از غنی سازی منابع داده های بزرگ با داده های نظرسنجی و هم غنی سازی داده های نظرسنجی با منابع داده های بزرگ وجود دارد (شما می توانید این مطالعه را هم ببینید). با ترکیب این دو منبع داده، محققان قادر به انجام کاری بودند که به صورت جداگانه غیرممکن بودند. دومین درس عمومی این است که هرچند منابع داده تجاری، مانند داده های کاتالیست، جمع آوری شده نباید "حقیقت زمین" باشند، در بعضی موارد، آنها می توانند مفید باشند. گاهی اوقات اسکپتک ها این منبع داده تجاری جمع و جور را با حقیقت مطلق مقایسه می کنند و اشاره می کنند که این منابع داده کوتاه هستند. با این حال، در این مورد، شک و تردیدکنندگان مقایسه اشتباه را انجام می دهند: تمام اطلاعاتی که محققان از آن استفاده می کنند، از حقیقت مطلق کم نمی کنند. در عوض بهتر است مقادیر داده های جمع آوری شده تجاری را با سایر منابع داده موجود (مثلا رفتار رأی گیری خود گزارش دهی) مقایسه کنید، که همواره دارای اشتباهات هستند. در نهایت، سومین درس عمومی Ansolabehere و مطالعه هرش این است که در برخی موارد، محققان می توانند از سرمایه گذاری های بزرگ که بسیاری از شرکت های خصوصی در جمع آوری و هماهنگ سازی مجموعه داده های پیچیده اجتماعی استفاده می کنند بهره مند شوند.