2.3.2.1 نامکمل

کوئی بات نہیں "بڑے" اپنے "بڑی ڈیٹا" یہ شاید میں معلومات آپ چاہتے ہیں نہیں ہے کہ کس طرح.

سب سے بڑی ڈیٹا ذرائع احساس وہ معلومات جو آپ کو آپ کی تحقیق کے لئے چاہتے ہیں کہ نہیں ہے کہ میں، نامکمل ہیں. یہ تحقیق سے دوسرے مقاصد کے لئے پیدا کیا گیا ہے کہ اعداد و شمار کی ایک عام خصوصیت ہے. کئی سماجی سائنسدانوں نے پہلے ہی جیسے ایک موجودہ سروے اس سوال تم چاہتے تھے نہیں پوچھا، ادوریپن سے نمٹنے کا تجربہ تھا. بدقسمتی سے، ادوریپن کے مسائل بڑی ڈیٹا میں زیادہ شدید ہو جاتے ہیں. نظریاتی تشکیل operationalize کرنے آبادیات، دیگر پلیٹ فارمز پر رویے، اور اعداد و شمار: میرے تجربے میں، بڑی ڈیٹا سوشل ریسرچ کے لئے مفید معلومات کی تین اقسام لاپتہ ہو جاتا ہے.

ادوریپن کے ان فارم کے تینوں Gueorgi Kossinets اور ڈنکن واٹس کی طرف سے ایک مطالعہ میں سچتر ہیں (2006) ایک یونیورسٹی میں سماجی نیٹ ورک کے ارتقاء کے بارے میں. Kossinets اور واٹس جو (محققین ای میلز کے مواد تک رسائی کی ضرورت نہیں تھی) کس وقت کس سے ای میلز بھیجے گئے بارے میں درست معلومات پڑا جس یونیورسٹی سے ای میل نوشتہ، کے ساتھ شروع. ان ای میل کے ریکارڈ میں ایک حیرت انگیز ڈیٹا سیٹ کی طرح آواز، لیکن، وہ کر رہے ہیں کے باوجود ان کے سائز اور گرینولیریٹی-بنیادی طور پر نامکمل. مثال کے طور پر، ای میل نوشتہ جیسے جنس اور عمر کے طالب علموں کی آبادیاتی خصوصیات، کے بارے میں ڈیٹا کو شامل نہیں کرتے. اس کے علاوہ، ای میل نوشتہ جیسے فون کالز، ٹیکسٹ پیغام، یا چہرے سے چہرہ مکالمات دوسرے میڈیا کے ذریعے مواصلات کے بارے میں معلومات شامل نہیں ہے. آخر میں، ای میل نوشتہ براہ راست رشتے، بہت سے موجودہ نظریات میں نظریاتی تشکیل کے بارے میں معلومات شامل نہیں ہے. بعد میں باب میں، میں نے تحقیق کی حکمت عملی کے بارے میں بات کرتے ہیں، آپ کو کس طرح Kossinets اور واٹس ان مسائل کو حل نظر آئے گا.

ادوریپن کی تین اقسام کے، نظریاتی تشکیل operationalize کرنے نامکمل اعداد و شمار کے مسئلہ کو حل کرنے میں سب سے مشکل ہے، اور میرے تجربے میں، یہ اکثر اتفاقی طور پر اعداد و شمار کے سائنسدانوں کی طرف سے نظر انداز کیا جاتا. تقریبا، نظریاتی تشکیل تجریدی خیالات کہ سماجی سائنسدانوں کا مطالعہ بدقسمتی سے، ان تشکیل ہمیشہ واضح بیان نہیں کیا جا سکتا اور ماپا جاتا ہے، لیکن،. مثال کے طور پر، کی empirically کی بظاہر سادہ دعوی ہے کہ لوگوں کو زیادہ ذہین ہیں جو زیادہ پیسہ کمانے کے ٹیسٹ کرنے کے لئے کوشش کر رہی تصور کرتے ہیں. اس دعوی کو ٹیسٹ کرنے کے لئے میں آپ کی ذہانت والا کیا ہے، پیمائش کرنے کے لئے کی ضرورت ہو گی "انٹیلی جنس" لیکن؟ مثال کے طور پر، Gardner (2011) انٹیلی جنس کے آٹھ مختلف اقسام اصل میں نے دلیل دی. اور یہ کہ درست انٹیلی جنس کے ان فارم کے کسی بھی اقدام کر سکتا ہے وہاں کے طریقہ کار ہے؟ ماہرین نفسیات کی طرف سے کام کی بہت زیادہ مقدار کے باوجود، ان سوالات اب بھی مبہم جواب نہیں. اس طرح، یہاں تک کہ ایک نسبتا آسان کے دعوی کا لوگوں سے زیادہ ذہین ہیں جو زیادہ پیسے کمانے-کر سکتے ہیں یہ اعداد و شمار میں نظریاتی تشکیل operationalize کے لئے مشکل ہو سکتا ہے کیونکہ کو empirically اندازہ کرنے کے لئے مشکل ہو جائے. سماجی سائنسدانوں اہم لیکن "اقدار"، "سماجی سرمایہ" اور "جمہوریت شامل operationalize لئے مشکل ہوتا ہے نظریاتی تشکیل کی دیگر مثالیں." نظریاتی تشکیل اور ڈیٹا تعمیر موزونیت کے درمیان میچ کو فون (Cronbach and Meehl 1955) . اور، تشکیل کی اس فہرست سے پتہ چلتا ہے،، تعمیر موزونیت ایک مسئلہ ہے کہ سماجی سائنسدانوں نے ایک بہت طویل وقت کے لئے کے ساتھ جدوجہد کی ہے وہ اعداد و شمار تحقیق کے مقصد کے لئے جمع کیا گیا تھا اس کے ساتھ کام کر رہے تھے اس وقت بھی جب. تحقیق کے علاوہ دیگر مقاصد کے لئے جمع اعداد و شمار کے ساتھ کام کرتے، تعمیر موزونیت کے مسائل بھی زیادہ مشکل ہو (Lazer 2015) .

آپ ایک ریسرچ پیپر پڑھ رہے ہیں جب، کا جائزہ لینے کے ایک فوری اور مفید طریقہ کے لئے تعمیر موزونیت کے بارے میں خدشات عام طور پر تشکیل کے معاملے میں ظاہر کیا جاتا ہے جس میں کاغذ، میں بنیادی دعوے کو لینے کے لئے ہے، اور استعمال کے اعداد و شمار کے لحاظ سے اسے دوبارہ اظہار. مثال کے طور پر، کہ زیادہ ذہین لوگوں کو مزید پیسہ کمانے کے دکھانے کے لئے دعوی ہے کہ دو فرضی جائزوں پر غور:

  • سٹڈی 1: ریوین پروگریسو قالب ٹیسٹ ایک پر اچھی طرح سکور جو وشلیشتاتمک انٹیلی جنس کے ساتھ ساتھ تعلیم حاصل کی ٹیسٹ لوگوں (Carpenter, Just, and Shell 1990) اعلی رپورٹ کیا آمدنی ان کے ٹیکس ریٹرن پر -have
  • سٹڈی 2: استعمال کیا جو اب الفاظ کے پرتعیش برانڈز کا ذکر کرنا زیادہ امکان ہے. ٹوئٹر پر لوگوں

دونوں صورتوں میں، محققین وہ کہ زیادہ ذہین لوگ زیادہ پیسے کما ظاہر کیا ہے کہ زور سکتا ہے. لیکن، پہلی تحقیق میں نظریاتی تشکیل کے ساتھ ساتھ کے اعداد و شمار کی طرف سے شروع کر رہے ہیں اور دوسری میں وہ نہیں ہیں. اس کے علاوہ، اس مثال کی وضاحت کرتا ہے کے طور پر، زیادہ ڈیٹا خود بخود تعمیر موزونیت کے ساتھ مسائل کو حل نہیں کرتا. یہ ایک ملین ٹویٹس، ایک ارب ٹویٹس، یا ایک ٹریلین ٹویٹس ملوث چاہے آپ کا مطالعہ 2 نتائج شک نہیں ہونا چاہیے. محققین تعمیر موزونیت کے خیال سے واقف نہیں کے طور پر، ٹیبل 2.2 سٹڈیز ڈیجیٹل ٹریس ڈیٹا استعمال نظریاتی تشکیل شروع کر دیا ہے اس میں سے کچھ مثالیں فراہم.

ٹیبل 2.2: زیادہ تجریدی نظریاتی تصورات میں اقدامات کے طور پر استعمال کیا جاتا ہے کہ ڈیجیٹل نشانات کی مثالیں. سماجی سائنسدانوں اس میچ تعمیر موزونیت کو فون کرنے اور اس کے سماجی تحقیق کے لئے بڑے اعداد و شمار ذرائع کا استعمال کرتے ہوئے کے ساتھ ایک بڑا چیلنج ہے (Lazer 2015) .
ڈیجیٹل ٹریس نظریاتی تعمیر نظیر
ایک یونیورسٹی سے ای میل نوشتہ (میٹا ڈیٹا کو صرف) سماجی تعلقات Kossinets and Watts (2006) ، Kossinets and Watts (2009) ، De Choudhury et al. (2010)
ویبو پر سوشل میڈیا خطوط شہری مشغولیت Zhang (2016)
ایک فرم سے ای میل نوشتہ (میٹا ڈیٹا اور مکمل متن) ایک تنظیم میں ثقافتی فٹ Goldberg et al. (2015)

operationalizing نظریاتی تشکیل کے لئے نامکمل اعداد و شمار کے مسئلے کو حل کرنے کے لئے بہت مشکل ہے، اگرچہ، نامکمل شماریات آبادی معلومات اور دیگر پلیٹ فارمز پر رویے پر نامکمل معلومات کے مسئلے پر تین عام حل ہیں. پہلی اصل میں آپ کی ضرورت ہے اعداد و شمار جمع کرنے کے لئے ہے؛ مجھے باب 3 میں اس کی ایک مثال کے بارے میں آپ کو بتاتا ہوں کہ میں سروے کے بارے میں بتا دیا. بدقسمتی سے، ڈیٹا جمع کرنے کی اس طرح ہمیشہ ممکن نہیں ہے. دوسری اہم حل ڈیٹا سائنسدانوں صارف وصف تخمینے اور کیا سماجی سائنسدانوں نسبت کال کال کیا کرنا ہے. اس نقطہ نظر میں، محققین کو دوسرے لوگوں کی صفات نتیجہ نکالنا ہے کہ وہ کچھ لوگوں پر ہے کہ معلومات کا استعمال. تیسری ممکنہ حل-Kossinets اور کی طرف سے استعمال ایک ایک سے زیادہ اعداد و شمار ذرائع کو اکٹھا کرنے واٹس تھا. یہ عمل کبھی کبھی ضم کرنے یا ریکارڈ تعلق کہا جاتا ہے. اس عمل کے لئے میرا پسندیدہ استعارہ کبھی ریکارڈ کے تعلق پر لکھا بہت پہلے کاغذ کے پہلے پیراگراف میں تجویز کیا گیا (Dunn 1946) :

"دنیا میں ہر شخص کی زندگی کی ایک کتاب کی تخلیق کرتا ہے. اس کتاب کے پیدائش کے ساتھ شروع ہوتا ہے اور موت کے ساتھ ختم ہو جاتی ہے. اس کے صفحات کی زندگی میں اصول واقعات کے ریکارڈ سے بنا رہے ہیں. ریکارڈ تعلق ایک حجم میں اس کتاب کے صفحات جمع کرنے کے عمل کو دیا نام ہے. "

یہ پیرا 1946 میں لکھا گیا ہے، اور اس وقت، لوگ سوچ رہے تھے زندگی کی کتاب پیدائش، شادی، طلاق، اور موت کی طرح زندگی کے اہم واقعات بھی شامل کر سکتے ہیں. تاہم، اب جب کہ لوگوں کے بارے میں اتنی معلومات درج ہے، زندگی کی کتاب ایک ناقابل یقین حد تفصیلی پورٹریٹ، ان لوگوں کے مختلف صفحات (یعنی، ہمارے ڈیجیٹل نشانات)، جکڑے جا سکتا ہے تو ہو سکتا ہے. زندگی کے اس کتاب کے محققین کے لئے ایک عظیم ذریعہ بھی ہو سکتا ہے. لیکن، زندگی کی کتاب بھی تباہی کا ایک ڈیٹا بیس کہا جا سکتا ہے (Ohm 2010) غیر اخلاقی مقاصد کی تمام اقسام کے لئے استعمال کیا جا سکتا ہے جس،، کے طور پر ذیل میں ذیل میں بڑے اعداد و شمار کے ذرائع کی طرف سے جمع کی گئی معلومات کے حساس نوعیت کے بارے میں بات کرتے ہیں اس سے زیادہ بیان کیا اور میں باب 6 (اخلاقیات).