مزید یہ تفسیر

اس حصے کی ایک داستان کے طور پر پڑھا جا کرنے کے بجائے، ایک ریفرنس کے طور پر استعمال کیا جا کرنے کے لئے ڈیزائن کیا گیا ہے.

  • تعارف (سیکشن 3.1)

اس باب میں موضوعات میں سے بہت سے بھی اس طرح کی رائے عامہ ریسرچ کی امریکن ایسوسی ایشن (AAPOR) میں حالیہ صدارتی پتے، میں مائدونت کیا گیا ہے Dillman (2002) ، Newport (2011) ، Santos (2014) ، اور Link (2015) .

سروے تحقیق کی ترقی کے بارے میں مزید تاریخی پس منظر کے لئے دیکھیں Smith (1976) اور Converse (1987) . سروے تحقیق کے تین ادوار کے خیال پر مزید معلومات کے لئے، دیکھیں Groves (2011) اور Dillman, Smyth, and Christian (2008) (تھوڑا سا مختلف طریقے سے تین ادوار کو ٹوٹ جائے جس میں).

سروے تحقیق میں دوسرے دور میں پہلے سے منتقلی کے اندر ایک چوٹی ہے Groves and Kahn (1979) کے درمیان ایک تفصیلی سر سے سر موازنہ کرتا ہے جس میں، ایک چہرہ سے چہرہ اور ٹیلی فون سروے. Brick and Tucker (2007) بے ترتیب ہندسوں ڈائلنگ کے نمونے لینے کے طریقوں میں تاریخی ترقی پر واپس لگتا ہے.

کس طرح سروے تحقیق میں مزید معاشرے میں تبدیلیوں کے جواب میں ماضی میں تبدیل کر دیا ہے کے لئے دیکھیں Tourangeau (2004) ، Mitofsky (1989) ، اور Couper (2011) .

  • مشاہدہ بمقابلہ پوچھ (سیکشن 3.2)

کبھی کبھی مدعا کو خود اپنے اندرونی ریاستوں کے بارے میں معلوم نہیں ہیں کیونکہ سوال کی طرف سے اندرونی حالات کے بارے میں سیکھنا مشکلات ہو سکتا. مثال کے طور پر، Nisbett and Wilson (1977) اخبار میں مصنفین نتیجہ اخذ: "رعایا کو کبھی کبھی کی (ایک) بے خبر ہیں:" ذہنی عمل پر زبانی رپورٹوں ہم معلوم کر سکتے ہیں کے مقابلے میں زیادہ کہہ:. "پر evocative عنوان کے ساتھ ایک شاندار کاغذ ہے ایک محرک اہم بات ایک جواب متاثر کیا کہ کے وجود، (ب) کے جواب کا وجود، اور (ج) بے خبر ہیں کہ محرک کے جواب کو متاثر کیا ہے کے بارے میں معلوم. "

دلائل کہ محققین نے رپورٹ کیا رویے یا رویوں کا مشاہدہ رویے ترجیح دینی چاہیے لئے دیکھیں Baumeister, Vohs, and Funder (2007) (نفسیات) اور Jerolmack and Khan (2014) اور جوابات (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (سوشیالوجی). پوچھ رہا ہے اور یہ بھی مشاہدہ کے درمیان فرق معاشیات، جہاں محققین نے بیان اور انکشاف کیا ترجیحات کے بارے میں بات میں پیدا ہوتا ہے. مثال کے طور پر، ایک محقق مدعا وہ آئس کریم کھانے یا جم جا ترجیح دیتے ہیں چاہے (بیان کردہ ترجیحات) پوچھ سکتے یا تحقیق کے اکثر کس طرح لوگوں آئس کریم کھانے کا مشاہدہ اور جم میں (نازل کی ترجیحات) تک جا سکتے ہیں. معاشیات میں بیان کی ترجیحات ڈیٹا کی بعض اقسام کے گہرے شکوک و شبہات نہیں ہے (Hausman 2012) .

ان مباحثوں کا ایک اہم موضوع کی رپورٹ ہے کہ رویے ہمیشہ درست نہیں ہے. لیکن، خود کار طریقے سے ریکارڈ رویے، درست نہیں ہو سود کا ایک نمونہ پر جمع نہیں کیا جا سکتا، اور محققین کے لئے قابل رسائی نہیں ہو سکتا کر سکتے ہیں. اس طرح، کچھ حالات میں، میں نے رپورٹ رویے مفید ہو سکتا ہے لگتا ہے. کے علاوہ، ان بحثوں سے ایک دوسرا اہم موضوع ہے کہ جذبات، علم، توقعات، اور رائے کے بارے میں رپورٹ ہمیشہ درست نہیں ہیں. لیکن، ان داخلی حالات کے بارے میں معلومات کی طرف سے کی ضرورت ہے تو محققین-یا تو کچھ رویے کی وضاحت کرنے یا کی مدد سے اچھی بات کی وضاحت کی-پھر جائے کے طور پر پوچھ کے لئے مناسب ہو سکتا ہے.

  • کل سروے خرابی (دفعہ 3.3)

کل سروے غلطی پر کتاب کی لمبائی کے علاج کے لئے، دیکھیں Groves et al. (2009) یا Weisberg (2005) . کل سروے کی خرابی کی ترقی کی ایک تاریخ کے لئے دیکھیں Groves and Lyberg (2010) .

A تحقیق ایجنڈا: نمائندگی کے معاملے میں، غیر رد عمل اور غیر جواب کے تعصب کے مسائل کے لئے ایک عظیم تعارف سماجی سائنس سروے میں Nonresponse پر نیشنل ریسرچ کونسل کی رپورٹ ہے (2013) . ایک اور مفید جائزہ کی طرف سے فراہم کی جاتی ہے (Groves 2006) . اس کے علاوہ، سرکاری اعداد و شمار کے جرنل، رائے عامہ سہ ماہی، اور سیاسی اور سماجی سائنس کے امریکی اکیڈمی کی تاریخ کے پورے خصوصی مسائل غیر کے جواب کے موضوع پر شائع کیا گیا ہے. آخر میں، جواب کی شرح کا حساب لگانے کے اصل میں بہت سے مختلف طریقے ہیں؛ ان طریقوں رائے عامہ محققین کی امریکن ایسوسی ایشن (AAPOR) کی طرف سے ایک رپورٹ میں تفصیل سے بیان کیا گیا ہے (Public Opinion Researchers} 2015) .

1936 ادبی ڈائجسٹ سروے تفصیل سے مطالعہ کیا گیا ہے (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . یہ بھی بے ترتیب اعداد و شمار جمع کے خلاف انتباہ کرنے کے لئے ایک مثال کے طور پر استعمال کیا گیا ہے (Gayo-Avello 2011) . 1936 میں، جارج گیلپ کے نمونے لینے کے ایک سے زیادہ جدید ترین فارم پر استعمال کیا، اور ایک بہت چھوٹے نمونے کے ساتھ زیادہ درست اندازوں کو پیدا کرنے کے قابل تھا. ادبی ڈائجسٹ زائد گیلپ کی کامیابی ایک سنگ میل سروے تحقیق کی ترقی تھا (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .

پیمائش کے لحاظ سے، ڈیزائننگ سوالنامے کے لئے ایک عظیم پہلا ذریعہ ہے Bradburn, Sudman, and Wansink (2004) . رویہ سوالات پر خاص طور پر توجہ مرکوز کی ایک سے زیادہ اعلی درجے کے علاج کے لئے، دیکھیں Schuman and Presser (1996) . پہلے سے جانچ کے سوالات پر مزید میں دستیاب ہے Presser and Blair (1994) ، Presser et al. (2004) ، اور باب 8 Groves et al. (2009) .

سروے کے اخراجات اور سروے کی غلطیوں کے درمیان تجارت بند کی کلاسک، کتاب کی لمبائی علاج ہے Groves (2004) .

  • کون پوچھنے کے لئے (سیکشن 3.4)

سٹینڈرڈ احتمال نمونے لینے اور تخمینہ کے کلاسک کتاب طوالت علاج ہیں Lohr (2009) (مزید تعارفی) اور Särndal, Swensson, and Wretman (2003) (زیادہ اعلی درجے کی). پوسٹ ستریکرن اور متعلقہ طریقوں میں سے ایک کلاسک کتاب کی لمبائی علاج ہے Särndal and Lundström (2005) . کچھ ڈیجیٹل دور کی ترتیبات میں، محققین جو ماضی میں سچ اکثر نہیں تھا غیر مدعا، کے بارے میں بہت تھوڑا سا جانتے ہیں. محققین غیر مدعا کے بارے میں معلومات ہے جب غیر کے جواب ایڈجسٹمنٹ کی مختلف شکلوں ممکن ہیں (Kalton and Flores-Cervantes 2003; Smith 2011) .

کا ایکس باکس مطالعہ Wang et al. (2015) بہستر رجعت اور پوسٹ ستریکرن نامی تکنیک (یمآرپی، کبھی کبھی "مسٹر P" کہا جاتا ہے) کے محققین سیل بہت سے، بہت سے خلیات موجود ہیں اس وقت بھی جب کا مطلب ہے کا اندازہ کرنے کی اجازت دیتا ہے استعمال کرتا ہے. کچھ بحث اس ٹیکنالوجی سے اندازوں کے معیار کے بارے نہیں ہے، اگرچہ، سے دریافت کرنے کا وعدہ کے علاقے کی طرح لگتا ہے. تکنیک سے پہلے میں استعمال کیا جاتا تھا Park, Gelman, and Bafumi (2004) ، اور اس کے نتیجے کے استعمال اور بحث ہوئی ہے (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . انفرادی وزن اور سیل کی بنیاد پر وزن کے درمیان تعلق پر زیادہ کے لئے دیکھیں Gelman (2007) .

weighting کے ویب سروے کے دوسرے نقطہ نظر کے لئے دیکھیں Schonlau et al. (2009) ، Valliant and Dever (2011) ، اور Bethlehem (2010) .

نمونہ کے ملاپ کی طرف سے تجویز کیا گیا Rivers (2007) . Bethlehem (2015) کی دلیل ہے نمونہ کے ملاپ کی کارکردگی اصل میں دوسرے نمونے لینے کے نقطہ نظر (مثلا، ستریقرت نمونے لینے) اور دیگر ایڈجسٹمنٹ کے نقطہ نظر (مثلا، بعد از ستریکرن) کی طرح ہو جائے گا کہ. آن لائن پینل پر زیادہ کے لئے، دیکھیں Callegaro et al. (2014) .

کبھی کبھی محققین احتمال نمونے اور غیر احتمال نمونے دیکھیں معیار کے اندازوں برآمد ہوں کہ مل گیا ہے (Ansolabehere and Schaffner 2014) ، لیکن دوسرے موازنہ غیر احتمال نمونے بدتر کر پتہ چلا ہے کہ (Malhotra and Krosnick 2007; Yeager et al. 2011) . ان اختلافات کے لئے ایک ممکنہ وجہ ہے کہ غیر احتمال نمونے وقت کے ساتھ بہتر کیا ہے. غیر احتمال کے نمونے لینے کے طریقوں میں سے ایک زیادہ نراشاوادی نقطہ نظر کے لئے غیر احتمال نمونے کی AAPOR ٹاسک فورس دیکھیں (Baker et al. 2013) ، اور میں نے بھی تفسیر کا خلاصہ رپورٹ مندرجہ ذیل ہے کہ پڑھنے کی سفارش.

غیر احتمال نمونوں میں تعصب کو کم کرنے کے وزن کے اثر پر ایک میٹا تجزیہ کے لئے، میں ٹیبل 2.4 دیکھنے Tourangeau, Conrad, and Couper (2013) نتیجہ اخذ کرنا "ایڈجسٹمنٹ مفید لیکن fallible تصحیح لگتے ہو مصنفین کی طرف جاتا ہے،. . . "

  • پوچھیں کرنے کے لئے کس طرح (سیکشن 3.5)

Conrad and Schober (2008) ایک ترمیم حجم مستقبل کے سروے انٹرویو کا خواب دیکھنا عنوان سے فراہم کرتا ہے، اور یہ اس کے حصے میں موضوعات کے بہت سے خطاب ہے. Couper (2011) اسی طرح موضوعات کو خطاب ہے، اور Schober et al. (2015) ایک نئی ترتیب کے مطابق ہیں کہ اعداد و شمار جمع کرنے کے طریقوں کو اعلی معیار کے اعداد و شمار کے نتیجے میں کر سکتے ہیں کہ کس طرح کی ایک اچھی مثال پیش کرتا ہے.

سماجی سائنس سروے کے لئے فیس بک اطلاقات کا استعمال کرتے ہوئے کی ایک اور دلچسپ مثال کیلئے دیکھیں Bail (2015) .

سروے کے شرکاء کے لئے ایک سفر بہتر اور قابل قدر تجربہ بنانے پر مزید مشورہ کے لئے، کے مطابق ڈیزائن کے طریقہ کار پر کام دیکھ (Dillman, Smyth, and Christian 2014) .

Stone et al. (2007) ماحولیاتی وقتی تشخیص اور متعلقہ طریقوں میں سے ایک کتاب کی لمبائی علاج فراہم کرتا ہے.

  • دیگر ڈیٹا سے منسلک سروے (سیکشن 3.6)

Judson (2007) کے طور پر سروے اور انتظامی ڈیٹا کو یکجا کر کے عمل کو "معلومات کے انضمام،" اس نقطہ نظر کے کچھ فوائد پر تبادلہ خیال، اور کچھ مثالیں پیش کرتا ہے.

محققین ڈیجیٹل نشانات اور انتظامی ڈیٹا کا استعمال کر سکتے ہیں کہ ایک اور طریقہ مخصوص خصوصیات کے ساتھ لوگوں کے لئے ایک نمونے لینے کے فریم ہے. تاہم، ان کے ریکارڈ ایک نمونے لینے کے فریم استعمال کرنے کے لیے بھی پرائیویسی سے متعلق سوالات تشکیل دے سکتے ہیں تک رسائی حاصل (Beskow, Sandler, and Weinberger 2006) .

amplified کیا پوچھ کے بارے میں، اس نقطہ نظر کے طور میں نے یہ بیان کیا ہے کہ کس طرح سے ظاہر ہو سکتا ہے کے طور پر نئی بات نہیں ہے. یہ نقطہ نظر کے اعدادوشمار ماڈل کی بنیاد پر پوسٹ ستریکرن میں تین بڑے علاقوں پر گہری کنکشن ہے (Little 1993) ، بہتان (Rubin 2004) ، اور چھوٹے سے علاقے تخمینہ (Rao and Molina 2015) . یہ بھی طبی تحقیق میں سروگیٹ متغیر کے استعمال سے متعلق ہے (Pepe 1992) .

ڈیجیٹل ٹریس ڈیٹا تک رسائی حاصل حوالے اخلاقی مسائل کے علاوہ، amplified کیا پوچھ بھی حساس خصلتوں لوگ ایک سروے میں ظاہر کرنے کے لئے منتخب نہیں کر سکتا ہے کہ نتیجہ نکالنا کرنے کے لئے استعمال کیا جا سکتا ہے (Kosinski, Stillwell, and Graepel 2013) .

میں سرمایہ کاری اور وقت کے تخمینے Blumenstock, Cadamuro, and On (2015) اس طرح کے صاف اور کال ڈیٹا پر عملدرآمد کرنے کی لاگت متغیر سرمایہ کاری ایک اضافی سروے اور شامل نہیں ہے مقررہ اخراجات کی لاگت کے لئے زیادہ رجوع. عام طور پر، سے amplified پوچھ شاید اعلی مقررہ اخراجات اور ڈیجیٹل تجربات (باب 4 میں دیکھیں) کے لئے اسی طرح کم متغیر اخراجات پڑے گا. میں استعمال کیا جاتا اعداد و شمار پر مزید تفصیلات Blumenstock, Cadamuro, and On (2015) کاغذ میں ہیں Blumenstock and Eagle (2010) اور Blumenstock and Eagle (2012) . ایک سے زیادہ imputuation سے نقطہ نظر (Rubin 2004) سے amplified پوچھ سے تخمینے میں گرفتاری غیر یقینی صورتحال مدد مل سکتی ہے. محققین صرف پوچھ رہا مجموعی شمار، کی بجائے انفرادی سطح کے خصلتوں کی پرواہ سے amplified کر رہے ہیں، تو پھر میں نقطہ نظر King and Lu (2008) اور Hopkins and King (2010) مفید ہو سکتا ہے. میں مشین لرننگ کے نقطہ نظر کے بارے میں مزید معلومات کے لئے Blumenstock, Cadamuro, and On (2015) ، دیکھیں James et al. (2013) (مزید تعارفی) یا Hastie, Tibshirani, and Friedman (2009) (زیادہ اعلی درجے کی). ایک اور مقبول مشین لرننگ نصابی کتاب ہے Murphy (2012) .

افزودہ پوچھ کے بارے میں، Ansolabehere اور Hersh میں نتائج (2012) دو کلیدی اقدامات پر قبضہ: 1) کے سروے ڈیٹا کو ایک درست ماسٹر datafile پیدا کرنے کے لئے بہت سے مختلف اعداد و شمار کے ذرائع کو اکٹھا اور 2) Catalist کی صلاحیت سے منسلک کرنے کے لیے Catalist کی صلاحیت اس کے مالک datafile. لہذا، Ansolabehere اور Hersh احتیاط ان مراحل میں سے ہر ایک کی جانچ پڑتال.

ماسٹر datafile بنانے کے لئے، Catalist یکجا اور سمیت بہت سے مختلف ذرائع سے معلومات ہآرمونایس: دیگر منسوب تجارتی فراہم کرنے سے ہر ریاست سے ایک سے زیادہ ووٹنگ کے ریکارڈ سنیپشاٹ، ایڈریس رجسٹری کی پوسٹ آفس کی قومی بدلیں سے اعداد و شمار، اور اعداد و شمار. اس سب کی صفائی اور ولی ہوتا ہے کہ کس طرح کے بارے میں رکتمی تفصیلات اس کتاب کے دائرہ کار سے باہر ہیں، لیکن اس عمل کو، چاہے وہ کتنا ہوشیار، اصل اعداد و شمار کے ذرائع میں غلطیاں کی تشہیر کرے گا اور غلطیوں کو متعارف کرائے گا. Catalist اس کے ڈیٹا پروسیسنگ پر تبادلہ خیال اور اس کے خام ڈیٹا کی کچھ فراہم کرنے کے لئے تیار تھا، لیکن یہ محققین پورے Catalist ڈیٹا کے پائپ لائن کا جائزہ لینے کے لئے ناممکن تھا. بلکہ، محققین نے ایک ایسی صورت حال Catalist ڈیٹا فائل میں نامعلوم، اور شاید تاریخ، کی خرابی کی رقم تھی جہاں میں تھے. یہ ایک سنگین تشویش ہے کیونکہ ایک ناقد نہ مدعا کی طرف misreporting طرف، قیاس آرائی سکتا CCES پر سروے رپورٹس اور Catalist ماسٹر ڈیٹا فائل میں رویے کے درمیان بڑے اختلافات ماسٹر ڈیٹا فائل میں غلطیاں کی وجہ سے کیا گیا تھا کہ.

Ansolabehere اور Hersh ڈیٹا کے معیار تشویش سے خطاب کرنے کے دو مختلف نقطہ نظر لیا. سب سے پہلے، Catalist ماسٹر فائل میں ووٹ ڈالنے کے لیے خود رپورٹ ووٹنگ کا موازنہ کرنے کے علاوہ میں، محققین کو یہ بھی مقابلے خود رپورٹ پارٹی، ریس، ووٹر رجسٹریشن کی حیثیت (مثلا، رجسٹرڈ یا نہیں رجسٹرڈ) اور ووٹنگ کے طریقہ کار (مثلا، انسان میں، حاظر Catalist ڈیٹا بیس میں پائے گئے ان اقدار کو بیلٹ، وغیرہ). ان چار آبادیاتی متغیر کے لئے، محققین ووٹنگ کے لئے مقابلے Catalist ماسٹر فائل میں سروے رپورٹ اور اعداد و شمار کے درمیان معاہدے کے زیادہ اعلی سطح پایا. اس طرح، Catalist ماسٹر ڈیٹا فائل یہ غریب مجموعی معیار کی نہیں ہے کہ تجویز، ووٹنگ کے علاوہ دیگر علامات کے لئے اعلی معیار کی معلومات کی ضرورت کے لئے ظاہر ہوتا ہے. دوئم، Catalist سے اعداد و شمار کا استعمال کرتے ہوئے حصے میں، Ansolabehere اور Hersh کاؤنٹی ووٹنگ کے ریکارڈ کے معیار کی تین مختلف اقدامات، ایک نتیجہ پر تیار، اور وہ ووٹنگ کے زیادہ رپورٹنگ کی متوقع شرح ان اعداد و شمار کے معیار کے اقدامات میں سے کسی کے لئے بنیادی طور پر غیر متعلقہ تھا پتہ چلا ہے کہ زیادہ رپورٹنگ کے اعلی کی شرح بہت کم اعداد و شمار کے معیار کے ساتھ کاؤنٹیوں کے ذریعے کارفرما نہیں کیا جا رہا ہے تجویز ہے کہ.

اس ماسٹر ووٹنگ کی فائل کی تخلیق کو دیکھتے ہوئے، ممکنہ غلطیوں کے دوسرے ماخذ کے اس پر سروے کے ریکارڈ سے منسلک ہے. مثال کے طور پر، اس تعلق کو غلط طریقے سے کیا جاتا ہے تو اس کی اطلاع دی اور توثیق ووٹنگ کے رویے کے درمیان فرق کی ایک سے زیادہ تخمینہ شروع ہو سکتی ہے (Neter, Maynes, and Ramanathan 1965) . ہر شخص دونوں کے اعداد و شمار کے ذرائع میں تھا کہ ایک مستحکم، منفرد شناخت ہوتی تو پھر تعلق چھوٹی سی ہو گی. امریکہ اور دیگر ممالک میں، تاہم، وہاں کوئی آفاقی شناخت کنندہ ہے. اس کے علاوہ، اس طرح کے تھے یہاں تک کہ اگر ایک شناخت لوگ شاید محققین کا سروے کرنے کے لئے یہ فراہم کرنے کے لئے تذبذب کا شکار ہو جائے گا! نام، جنس، پیدائش کے سال، اور گھر کے پتے اسی طرح، Catalist نامکمل شناخت کاران، ہر ایک مدعا کے بارے میں معلومات کے چار ٹکڑے ٹکڑے کا استعمال کرتے ہوئے اس کیس میں تعلق کرنا پڑا. مثال کے طور پر، Catalist فیصلہ کرنے کی CCES میں سے Homie J سمپسن اپنے مالک کو ڈیٹا فائل میں ہومر جے سمپسن کے طور پر ایک ہی شخص تھا اگر تھا. عملی طور پر، کے ملاپ کے محققین کے لئے معاملات بدتر بنانے کے لئے ایک مشکل اور گندا عمل ہے، اور،، Catalist ملکیتی ہو اس کی مماثلت کی ٹیکنالوجی سمجھا.

کے ملاپ کے الگورتھم کو درست کرنے کے لئے، وہ دو چیلنجوں پر انحصار. Mitre کے کارپوریشن: پہلا، Catalist ایک کے ملاپ کے مقابلہ کے ایک آزاد، تیسری پارٹی کی طرف سے چلایا گیا تھا کہ میں بھی شرکت کی. Mitre کے تمام شرکاء دو شور ڈیٹا فائلوں فراہم کی جوڑ، اور مختلف ٹیموں Mitre کے لئے سب سے بہتر کے ملاپ کے واپس کرنے کے لئے مقابلے میں حصہ لیا. کیونکہ Mitre کے خود صحیح ملاپ کے جانتا تھا کہ وہ ٹیموں کو اسکور کرنے کے قابل تھے. 40 کمپنیوں حصہ لیا اس کے، Catalist دوسری جگہ میں آیا. ملکیتی ٹیکنالوجی کی آزاد، تیسری پارٹی کی تشخیص کی یہ قسم بہت کم ہوتے ہیں اور ناقابل یقین حد تک قابل قدر ہے؛ یہ ہمیں اعتماد دینا چاہئے Catalist کے ملاپ کے طریقہ کار سٹیٹ آف دی آرٹ میں بنیادی طور پر ہیں کہ. لیکن ریاست کے جدید ترین کافی اچھا ہے؟ اس ملاپ کے مقابلہ کرنے کے علاوہ میں، Ansolabehere اور Hersh Catalist لئے ان کے اپنے ملاپ کے چیلنج پیدا. ایک پہلے منصوبے سے، Ansolabehere اور Hersh فلوریڈا سے ووٹر ریکارڈز جمع کیا تھا. وہ اپنے کھیتوں Catalist کرنے REDACTED اور پھر ان کی اصل اقدار کے لئے ان شعبوں کی Catalist کی رپورٹوں کے مقابلے کے کچھ کے ساتھ ان ریکارڈز کے کچھ فراہم کی. خوش قسمتی سے، Catalist کی رپورٹوں Catalist اپنے مالک ڈیٹا فائل پر جزوی ووٹر ریکارڈز سے مطابقت کر سکتے کہ اشارہ، رکی ہوئی اقدار کے قریب تھے. یہ دو چیلنجوں، ایک تیسری پارٹی کی طرف سے ایک اور Ansolabehere اور Hersh ایک کرکے، ہم ان کے عین مطابق عمل درآمد خود جائزہ لینے نہیں کر سکتے ہیں، اگرچہ ہمیں Catalist ملاپ کے الگورتھم میں زیادہ اعتماد دے،.

ووٹنگ کو درست کرنے کے بہت سے سابقہ ​​کوششیں کی گئی ہیں. کہ ادب کا ایک جائزہ کے لئے دیکھیں Belli et al. (1999) ، Berent, Krosnick, and Lupia (2011) ، Ansolabehere and Hersh (2012) ، اور Hanmer, Banks, and White (2014) .

واضح رہے کہ اس کیس میں محققین Catalist سے اعداد و شمار کے معیار کی طرف حوصلہ افزائی کی گئی ہے، اگرچہ، تجارتی فروشوں کے دیگر اندازہ کم حوصلہ افزائی کیا گیا ہے نوٹ کرنا اہم ہے. محققین ناقص معیار مل گیا ہے جب مارکیٹنگ سسٹمز گروپ سے ایک صارفین کی فائل میں ایک سروے سے ڈیٹا (جو خود تین فراہم کرنے سے ایک دوسرے کے ساتھ کے اعداد و شمار کو ضم کر دیا: Acxiom پر، Experian، اور InfoUSA) (Pasek et al. 2014) . یہ ڈیٹا فائل سروے کے جوابات درست ہونے کی امید ہے کہ محققین مماثل نہیں ہے، datafile تھا لاپتہ سوالات کی ایک بڑی تعداد، اور لاپتہ اعداد و شمار کے پیٹرن کے لئے اعداد و شمار کی رپورٹ کیا سروے قدر کے (دوسرے الفاظ لاپتہ ڈیٹا منظم تھی میں correlated کیا گیا تھا، ہے ، بے ترتیب نہیں).

سروے اور انتظامی ڈیٹا درمیان ریکارڈ کی تعلق پر زیادہ کے لئے، دیکھیں Sakshaug and Kreuter (2012) اور Schnell (2013) . عام طور پر ریکارڈ کے تعلق پر زیادہ کے لئے، دیکھیں Dunn (1946) اور Fellegi and Sunter (1969) (تاریخی) اور Larsen and Winkler (2014) (جدید). اسی طرح کے نقطہ نظر بھی اس طرح کے اعداد و شمار کو نقل نہ بنانے، مثال کے طور پر شناخت، نام کی مماثلت، نقل کو پتہ لگانے کے ناموں سے کمپیوٹر سائنس میں ترقی یافتہ، اور ریکارڈ کا پتہ لگانے کے نقل کر دیا گیا ہے (Elmagarmid, Ipeirotis, and Verykios 2007) . نجی معلومات کی حفاظتی ذاتی طور پر معلومات کے کی شناخت کی نشریات ضرورت نہیں ہے جس کے تعلق کو ریکارڈ کرنے کے نقطہ نظر کا تحفظ بھی ہیں (Schnell 2013) . فیس بک میں محققین probabilisticsly ووٹنگ کے رویے کے لئے ان کے ریکارڈ سے منسلک کرنے کی ایک طریقہ کار تیار کی (Jones et al. 2013) ؛ اس تعلق کے ایک تجربہ ہے کہ میں باب 4 میں کے بارے میں آپ کو بتا دونگا اندازہ کرنے کے لئے کیا گیا تھا (Bond et al. 2012) .

حکومت انتظامی ریکارڈ کرنے کے لئے ایک بڑے پیمانے پر سماجی سروے نتھی کرنے کی ایک اور مثال صحت اور ریٹائرمنٹ سروے اور سوشل سیکورٹی ایڈمنسٹریشن سے آتا ہے. کہ مطالعہ پر زیادہ کے لئے، رضامندی طریقہ کار کے بارے میں معلومات بھی شامل، دیکھیں Olson (1996) اور Olson (1999) .

ایک ماسٹر datafile عمل کہ Catalist کچھ قومی حکومتوں کی شماریاتی دفاتر میں عام ملازمین-ہے میں انتظامی ریکارڈز کے بہت سے ذرائع کے امتزاج کا عمل. شماریات سویڈن سے دو محققین موضوع پر ایک تفصیلی کتاب میں لکھا ہے (Wallgren and Wallgren 2007) . (Olmstead کاؤنٹی، منیسوٹا، میو کلینک کے گھر) ریاست ہائے متحدہ امریکہ میں ایک کاؤنٹی میں اس نقطہ نظر کی ایک مثال کے لئے، دیکھیں Sauver et al. (2011) . انتظامی ریکارڈ میں ظاہر ہو سکتی ہے کہ غلطیوں پر زیادہ کے لئے، دیکھیں Groen (2012) .