3.6.1 تقویت درخواست

لینک کردن بررسی خود را به آثار دیجیتال می تواند مانند درخواست همه سوالات خود را در همه زمان ها است.

بررسی نمونه و سرشماری: درخواست به طور کلی در دو دسته اصلی می آید. بررسی نمونه، که در آن شما دسترسی به یک تعداد کمی از مردم، می تواند انعطاف پذیر، به موقع و نسبتا ارزان است. با این حال، بررسی نمونه، زیرا آنها بر اساس یک نمونه، اغلب در قطعنامه خود را محدود؛ با بررسی نمونه، آن است که اغلب سخت را به تخمین در مورد مناطق جغرافیایی خاص و یا برای گروه جمعیتی خاص. سرشماری، از سوی دیگر، تلاش برای مصاحبه همه در جامعه است. آنها دارای رزولوشن بزرگ است، اما آنها به طور کلی گران است، باریک در تمرکز هستند (آنها تنها شامل تعداد کمی از سوال)، و به موقع نیست (آنها در یک برنامه ثابت رخ می دهد، مانند هر 10 سال) (Kish 1979) . حالا تصور کنید اگر محققان می تواند بهترین ویژگی های آمارگیریهای نمونه و سرشماری ترکیب؛ تصور کنید اگر محققان توانستند هر سوال را به هر کس هر روز بپرسید.

بدیهی است، این مستمر، در همه جا، همیشه در بررسی یک نوع از فانتزی علوم اجتماعی است. اما، به نظر می رسد که ما می توانیم شروع به نزدیک شدن به این با ترکیب سوالات تحقیق از تعداد کمی از مردم با آثار دیجیتال از بسیاری از مردم. من پاسخ این نوع از ترکیب تقویت پرسیدن. اگر به خوبی انجام می شود، می تواند به ما کمک کند تخمین می زنند که بیشتر محلی (برای مناطق جغرافیایی کوچکتر) هستند، دانه های ریز تر (برای گروه های جمعیتی خاص)، و به موقع تر فراهم می کند.

یک نمونه از درخواست تقویت از کار جاشوا Blumenstock، که می خواست برای جمع آوری داده هایی که توسعه راهنمای در کشورهای فقیر کمک می آید. بیشتر به طور خاص، Blumenstock می خواستم برای ایجاد یک سیستم برای اندازه گیری ثروت و رفاه است که در ترکیب کامل از یک سرشماری با انعطاف پذیری و فرکانس یک نظرسنجی (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . در واقع، من در حال حاضر به طور خلاصه در فصل 1 شرح داده ایم کار Blumenstock است.

برای شروع، Blumenstock با بزرگترین ارائه دهنده تلفن همراه در رواندا همکاری. شرکت او سوابق معامله بی نام از حدود 1.5 میلیون مشتری رفتار پوشش از 2005 و 2009. سیاهههای مربوط شامل اطلاعاتی در مورد هر تماس و پیام متنی مانند زمان شروع، طول مدت، و موقعیت جغرافیایی تقریبی تماس گیرنده و دریافت ارائه شده است. قبل از اینکه ما شروع به صحبت کردن در مورد مسائل آماری، آن را به ارزش اشاره به این که این قدم اول را ممکن است یکی از سخت ترین است. همانطور که در فصل 2 شرح، بیشتر اطلاعات ردیابی دیجیتال غیر قابل دسترس به محققان است. و، بسیاری از شرکت به حق مردد برای به اشتراک گذاشتن اطلاعات خود، چون خصوصی است؛ است که مشتریان خود را احتمالا انتظار نداشتند که سوابق خود را به اشتراک گذاشته خواهد شد در انبوه با پژوهشگران. در این مورد، محققان گام های دقیق به گمنام داده را گرفت و کار خود را با یک شخص ثالث (به عنوان مثال، IRB خود) نظارت شد. اما، با وجود این تلاش ها، این داده ها احتمالا هنوز شناسایی و آنها به احتمال زیاد حاوی اطلاعات حساس (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . من به این سوال اخلاقی در فصل 6 بازگشت.

به یاد بیاورید که Blumenstock علاقه مند در اندازه گیری ثروت و رفاه بود. اما، این صفات به طور مستقیم در ثبت تماس ها نیست. به عبارت دیگر، این پرونده پاسخ برای این پژوهش، یک ویژگی مشترک در آثار دیجیتال است که به تفصیل در فصل 2. مورد بحث قرار گرفت ناقص است، اما به نظر میرسد که ثبت تماس احتمالا برخی از اطلاعات در مورد ثروت و رفاه داشته باشد. بنابراین، یکی از راه های پرسش و پاسخ Blumenstock می تواند: ممکن است برای پیش بینی که چگونه کسی که یک نظرسنجی بر اساس داده های ردیابی دیجیتال خود را پاسخ خواهد داد؟ اگر چنین است، پس از آن با پرسیدن چند نفر ما می توانیم پاسخ از هر کس دیگری را حدس بزنید.

برای ارزیابی این تجربی، Blumenstock و پژوهش دستیاران از موسسه کیگالی علم و صنعت یک نمونه از حدود یک هزار مشتریان تلفن همراه نامیده می شود. محققان اهداف پروژه به شرکت کنندگان توضیح داد، برای رضایت خود را به پیوند پاسخهای ممیزی به ثبت تماس پرسید، و سپس آنها را به یک سری از سوالات پرسیده برای اندازه گیری ثروت خود و رفاه، مانند "آیا شما خود را یک رادیو؟ "و" آیا شما خود را یک دوچرخه؟ "(نگاه کنید به شکل 3.11 برای لیست جزئی). همه شرکت کنندگان در این نظرسنجی غرامت مالی دریافت شد.

مهندسی ویژگی به دنبال یادگیری نظارت: بعد، Blumenstock یک روش دو مرحله ای مشترک در علم اطلاعات استفاده می شود. اول، در مرحله مهندسی ویژگی، برای هر کس که مصاحبه شد، Blumenstock ثبت تماس به مجموعه ای از ویژگی های در مورد هر فرد تبدیل. دانشمندان داده ها ممکن است این ویژگی به عنوان مثال پاسخ "ویژگی های" و دانشمندان علوم اجتماعی آنها را "متغیر"، برای هر فرد، Blumenstock محاسبه تعداد روز با فعالیت، تعداد زیادی از مردم متمایز یک فرد در تماس با شده، مقدار از پول را صرف اعتبار، و غیره. انتقادی، مهندسی از ویژگی های خوب نیاز به دانش تنظیم پژوهش. برای مثال، اگر آن را مهم برای تمایز بین تماس های داخلی و بین المللی (ما ممکن است انتظار افرادی که تماس بین المللی به ثروتمند) است، پس از این باید در مرحله مهندسی قابلیت انجام شود. یک پژوهشگر درک کمی از رواندا، این ویژگی را شامل نمی شود، و پس از عملکرد پیش بینی مدل رنج می برند.

بعد، در مرحله یادگیری نظارت، Blumenstock ساخته شده یک مدل آماری برای پیش بینی پاسخ نظرسنجی برای هر فرد بر اساس ویژگی های خود را. در این مورد، Blumenstock رگرسیون لجستیک با 10 برابر اعتبار متقاطع استفاده می شود، اما او می تواند انواع دیگر روش های یادگیری آماری و یا دستگاه استفاده می شود.

بنابراین چگونه به خوبی آن کار را انجام داد؟ Blumenstock قادر به پیش بینی پاسخ به بررسی سوالات مانند: "آیا شما خود را یک رادیو؟" و "آیا شما خود را یک دوچرخه؟" با استفاده از ویژگی های به دست آمده از ثبت تماس ها؟ مرتب کردن بر اساس. دقت و صحت پیش بینی های بالا برای برخی از صفات (شکل 3.11) بود. اما، آن است که همیشه مهم است که مقایسه یک روش پیش بینی های پیچیده در برابر یک جایگزین ساده. در این مورد، یک جایگزین ساده است برای پیش بینی که هر کس جواب رایج ترین است. به عنوان مثال، 97.3 درصد گزارش داشتن یک رادیو بنابراین اگر Blumenstock پیش بینی کرده بود که هر کس می گزارش داشتن یک رادیو او را با دقت 97.3 درصد است که شگفت انگیزی مشابه به عملکرد روش پیچیده تر خود (دقت 97.6٪) داشته اند. به عبارت دیگر، تمام داده های فانتزی و مدل سازی دقت پیش بینی از 97.3 درصد به 97.6 درصد افزایش یافت. با این حال، برای سوالات دیگر، مانند "آیا شما خود را یک دوچرخه؟"، پیش بینی از 54.4٪ به 67.6٪ بهبود یافته است. به طور کلی، شکل 3.12 نشان می دهد برای برخی از صفات Blumenstock را بسیار فراتر از فقط ساخت پیش بینی ساده مبنا بهتر نیست، اما این برای سایر صفات برخی از بهبود وجود دارد.

شکل 3.11: دقت پیش بینی برای مدل آماری آموزش دیده با ثبت تماس ها. نتایج از جدول 2 از Blumenstock (2014).

شکل 3.11: دقت پیش بینی برای مدل آماری آموزش دیده با ثبت تماس ها. نتایج از جدول 2 از Blumenstock (2014) .

شکل 3.12: مقایسه دقت پیش بینی برای مدل آماری آموزش دیده با ثبت تماس ها به پیش بینی پایه ساده است. امتیاز کمی jittered برای جلوگیری از همپوشانی؛ جدول 2 از Blumenstock (2014) برای مقادیر دقیق را ببینید.

شکل 3.12: مقایسه دقت پیش بینی برای مدل آماری آموزش دیده با ثبت تماس ها به پیش بینی پایه ساده است. امتیاز کمی jittered برای جلوگیری از همپوشانی؛ جدول 2 را ببینید Blumenstock (2014) برای مقادیر دقیق.

در این مرحله شما ممکن است فکر کند که این نتایج کمی ناامید کننده است، اما فقط یک سال بعد، Blumenstock و دو همکار-گابریل Cadamuro و رابرت بر روی چاپ مقاله در علوم با نتایج قابل ملاحظه ای بهتر (Blumenstock, Cadamuro, and On 2015) . دو دلیل فنی و اصلی برای بهبود وجود دارد: 1) آنها روش های پیچیده تر استفاده می شود (به عنوان مثال، یک رویکرد جدید به ویژگی های مهندسی و مدل های یادگیری ماشین پیچیده تر) و 2) به جای تلاش برای پی بردن به پاسخ به سوالات تحقیق فرد (به عنوان مثال، "آیا یک رادیو شما خود را؟")، آنها اقدام به استنباط شاخص ثروت کامپوزیت.

Blumenstock و همکارانش عملکرد رویکرد خود را به دو روش نشان داد. نخست، آنها دریافتند که برای مردم که در نمونه خود، آنها می توانند یک کار خیلی خوب پیش بینی ثروت خود را از ثبت تماس ها (شکل 3.14) انجام دهد. دوم، و همیشه مهمتر از آن، Blumenstock و همکارانش نشان داد که روش خود را می تواند تخمین با کیفیت بالا از توزیع جغرافیایی ثروت در رواندا تولید کند. بیشتر به طور خاص، آنها مدل های یادگیری ماشین خود را، که در نمونه خود در حدود 1000 نفر آموزش دیده بود، برای پیش بینی ثروت از تمام 1.5 میلیون نفر در ثبت تماس. علاوه بر این، با داده های مکانی جاسازی شده در داده تماس (به یاد آورید که داده تماس شامل محل نزدیکترین برج سلولی برای هر تماس)، محققان قادر به برآورد محل تقریبی سکونت هر فرد بود. قرار دادن این دو برآورد با هم، این تحقیق برآورد توزیع جغرافیایی ثروت مشترک در دانه دانه فضایی بسیار خوب تولید شده است. به عنوان مثال، آنها می توانند ثروت به طور متوسط ​​در هر یک از سلول های 2148 رواندا (کوچکترین واحد اداری در کشور) برآورد. این مقادیر ثروت پیش بینی بنابراین گرانول آنها به بررسی مشکل بودند. بنابراین، محققان نتایج خود را جمع کند تا تخمین ثروت طور متوسط ​​از 30 ولسوالی رواندا. این تخمین ها در سطح منطقه به شدت به برآورد از طلا نظرسنجی سنتی استاندارد مربوط می شد، رواندا جمعیت و بهداشت بررسی (شکل 3.14). اگرچه برآورد از دو منبع مشابه بود، برآورد از Blumenstock و همکارانش در حدود 50 برابر ارزان تر و 10 برابر سریع (زمانی که هزینه در از نظر هزینه های متغیر اندازه گیری) بود. این کاهش چشمگیر در هزینه بدان معنی است که به جای اینکه اجرای هر چند سال، به عنوان استاندارد برای جمعیت و بهداشت است نظرسنجی-ترکیبی از بررسی کوچک همراه با بزرگ اطلاعات ردیابی دیجیتال می تواند در هر ماه را اجرا کنید.

شکل 3.13: شماتیک از Blumenstock، Cadamuro، و در (2015). اطلاعات تماس از شرکت تلفن به یک ماتریس با یک سطر برای هر فرد و یک ستون برای هر ویژگی (به عنوان مثال، متغیر) تبدیل شد. در مرحله بعد، محققان یک مدل یادگیری نظارت ساخته شده برای پیش بینی بررسی پاسخ از فرد توسط ماتریس ویژگی. سپس مدل یادگیری نظارت به نسبت دادن پاسخ نظرسنجی برای همه مورد استفاده قرار گرفت. در اصل، این محققان پاسخ حدود یک هزار نفر استفاده می شود به نسبت دادن ثروت حدود یک میلیون نفر. همچنین، محققان محل تقریبی اقامت برای همه 1.5 میلیون نفر بر اساس مکان تماس های خود را برآورد شده است. هنگامی که این دو تخمین ترکیب شدند ثروت برآورد و محل اقامت برآورد-نتایج مشابه نتایج تخمین از جمعیت و بهداشت بررسی، یک نظرسنجی سنتی استاندارد طلا (شکل 3.14) بود.

شکل 3.13: شماتیک از Blumenstock, Cadamuro, and On (2015) . اطلاعات تماس از شرکت تلفن به یک ماتریس با یک سطر برای هر فرد و یک ستون برای هر ویژگی (یعنی متغیر) تبدیل شد. در مرحله بعد، محققان یک مدل یادگیری نظارت ساخته شده برای پیش بینی بررسی پاسخ از فرد توسط ماتریس ویژگی. سپس مدل یادگیری نظارت به نسبت دادن پاسخ نظرسنجی برای همه مورد استفاده قرار گرفت. در اصل، این محققان پاسخ حدود یک هزار نفر استفاده می شود به نسبت دادن ثروت حدود یک میلیون نفر. همچنین، محققان محل تقریبی اقامت برای همه 1.5 میلیون نفر بر اساس مکان تماس های خود را برآورد شده است. هنگامی که این دو تخمین ترکیب شدند ثروت برآورد و محل اقامت برآورد-نتایج مشابه نتایج تخمین از جمعیت و بهداشت بررسی، یک نظرسنجی سنتی استاندارد طلا (شکل 3.14) بود.

شکل 3.14: نمایش نتایج: از Blumenstock، Cadamuro، و در (2015). در سطح فردی، محققان قادر به انجام یک کار منطقی در پیش بینی ثروت کسی از ثبت تماس ها بودند. برآورد سطح ولسوالی ثروت که در برآورد سطح فردی از ثروت و محل اقامت-نتایج بر اساس بودند به نتایج بدست آمده از جمعیت و بهداشت بررسی، یک نظرسنجی سنتی استاندارد طلا بود.

شکل 3.14: نمایش نتایج: از Blumenstock, Cadamuro, and On (2015) . در سطح فردی، محققان قادر به انجام یک کار منطقی در پیش بینی ثروت کسی از ثبت تماس ها بودند. برآورد سطح ولسوالی ثروت که در برآورد سطح فردی از ثروت و محل اقامت-نتایج بر اساس بودند به نتایج بدست آمده از جمعیت و بهداشت بررسی، یک نظرسنجی سنتی استاندارد طلا بود.

در نتیجه، Blumenstock را تقویت درخواست روش ترکیبی داده های نظر سنجی با داده های ردیابی دیجیتال به تولید برآوردهای قابل مقایسه با تخمین بررسی استاندارد طلا. این مثال خاص نیز روشن برخی از تجارت آف بین درخواست تقویت شده و روش های بررسی های سنتی است. اول، برآورد درخواست تقویت به موقع تر، قابل ملاحظه ای ارزان و دانه بیشتر بود. اما، از سوی دیگر، در این زمان، یک مبنای نظری قوی برای این نوع از درخواست تقویت وجود دارد. این است که، این یکی از نمونه را نشان نمی دهد که آن کار خواهد کرد و هنگامی که آن را نمی خواهد. علاوه بر این، روش درخواست تقویت می کند و در عین حال راه های خوبی برای تعیین کمیت عدم قطعیت در اطراف برآورد خود را ندارد. با این حال، درخواست تقویت اتصالات عمیق به سه حوزه بزرگ در مبتنی بر آمار مدل پس از طبقه بندی (Little 1993) ، نسبت (Rubin 2004) ، و برآورد کوچک منطقه (Rao and Molina 2015) که البته من انتظار می رود که پیشرفت خواهد کرد سریع باشد.

درخواست تقویت زیر یک دستور اساسی است که می توان به وضعیت خاص خود را طراحی شده است. دو مواد تشکیل دهنده و دو مرحله وجود دارد. دو مواد تشکیل دهنده: 1) یک مجموعه داده اثری دیجیتال این است که گسترده اما نازک (که شده است، آن را تا بسیاری از مردم اما نه اطلاعاتی که شما در مورد هر یک نفر نیاز) و 2) یک بررسی است که باریک اما ضخامت (که شده است، آن را تا تنها تعداد کمی از مردم، اما از آن است که اطلاعاتی که شما در مورد آن دسته از افرادی نیاز دارید). سپس، دو مرحله وجود دارد. اول، برای مردم در هر دو منابع داده ها، ساخت یک مدل یادگیری ماشین که با استفاده از اطلاعات ردیابی دیجیتال برای پیش بینی پاسخ نظر سنجی. در مرحله بعد، با استفاده از مدل های یادگیری ماشین به نسبت دادن پاسخ نظرسنجی از همه در اطلاعات ردیابی دیجیتال است. بنابراین، اگر برخی از سوال است که شما می خواهید به درخواست به تعداد زیادی از مردم، برای داده های ردیابی دیجیتال نگاه از این افراد است که ممکن است برای پیش بینی پاسخ آنها وجود دارد.

مقایسه اول و دوم تلاش Blumenstock در مشکل نیز نشان می دهد درس مهم در مورد انتقال از دوران دوم به روش های دوران سوم به بررسی تحقیق: آغاز پایان نیست. است که، چند بار، روش اول نخواهد بود بهترین است، اما اگر محققان ادامه کار، همه چیز بهتر بشه. به طور کلی، در هنگام ارزیابی روش های جدید برای تحقیقات اجتماعی در عصر دیجیتال، مهم است که به دو ارزیابی متمایز: 1) چگونه به خوبی کار می کند در حال حاضر و 2) چگونه به خوبی شما فکر می کنم این ممکن است در آینده به عنوان چشم انداز داده کار تغییرات و به عنوان محققان توجه بیشتری به این مشکل است. اگر چه، محققان در حال آموزش دیده را به نوع اول از ارزیابی (چقدر خوب این قطعه خاص از پژوهش)، دوم این است که اغلب مهم تر است.