2.3.2.6 گندی

بڑے اعداد و شمار ذرائع ردی اور فضول سے لوڈ کیا جا سکتا.

بعض محققین وہ خود بخود جمع کر رہے ہیں، کیونکہ بڑے اعداد و شمار کے ذرائع، خاص طور پر آن لائن ذرائع سے ان لوگوں کو، قدیم ہیں یقین ہے کہ. سچ تو یہ ہے، بڑی ڈیٹا کے ذرائع کے ساتھ کام کیا ہے جو لوگ اکثر گندی ہیں جانتے ہیں کہ. یہ ہے کہ، وہ اکثر کو ڈیٹا کے محققین کو سود کی اصل اعمال کی عکاسی نہیں کرتے کہ شامل ہیں. عام طور پر کس طرح کے کم سمجھ ہے 1) وہ محققین کے لئے محققین اور 2) محققین کی طرف سے پیدا نہیں کیا گیا: بہت سے سماجی سائنسدانوں کو پہلے ہی بڑے پیمانے پر سماجی سروے کے اعداد و شمار، صفائی، لیکن بڑی اعداد و شمار ذرائع صفائی دو وجوہات کے لئے زیادہ مشکل کے عمل سے واقف ہیں وہ بنائے گئے تھے.

گندے ڈیجیٹل ٹریس اعداد و شمار کے خطرات واپس اور ساتھیوں کی طرف سے سچتر ہیں (2010) 11 ستمبر کے حملوں کا جذباتی رد 2001. محققین عام طور پر مہینے یا سال کے دوران جمع پوروویاپی کے اعداد و شمار کا استعمال کرتے ہوئے المناک واقعات کے جواب کا مطالعہ کے مطالعہ. لیکن، واپس اور ساتھیوں 85،000 امریکی کی جانب سے ایک ہمیشہ پر ڈیجیٹل نشانات-timestamped کا ذریعہ، خود کار طریقے سے ریکارڈ شدہ پیغامات پایا pagers کے-اور یہ ایک زیادہ finer اسکا نقشہ پر جذباتی ردعمل کا مطالعہ کرنے کے محققین کا فعال. پیچھے اگلا، اور ان کے ساتھیوں (1) اداسی سے متعلق الفاظ کا فی صد کی طرف سے پیجر پیغامات کی جذباتی مواد کوڈنگ کی طرف سے 11th ستمبر کے ایک منٹ منٹ بہ جذباتی دح پیدا (مثلا، رونا، غم)، (2) بے چینی (مثلا، میں پریشان، خوفزدہ)، اور (3) غصے (مثلا، نفرت، تنقیدی). وہ اداسی اور بے چینی ایک مضبوط پیٹرن کے بغیر پورے دن میں اتار چڑھاؤ کہ پایا، لیکن پورے دن میں غصے میں ایک حیران کن اضافہ ہوا تھا کہ. یہ ایک غیر متوقع واقعہ کا فوری جواب کی طرح ایک اعلی قرارداد کی ٹائم لائن ہے کرنے کے لئے ناممکن ہو جائے گا معیاری طریقوں کا استعمال کرتے ہوئے: یہ تحقیق ہمیشہ پر اعداد و شمار کے ذرائع کی طاقت کی ایک شاندار مثال ہونے لگتا ہے.

بس ایک سال بعد، تاہم، سنتھیا Pury (2011) کے اعداد و شمار میں زیادہ احتیاط سے دیکھا. وہ قیاس ناراض پیغامات کی ایک بڑی تعداد کو کسی ایک پیجر کی طرف سے پیدا کیا گیا تھا اور وہ سب کے سب ایک جیسے تھے کہ دریافت کیا. یہاں ان قیاس ناراض پیغامات کہا ہے:

"پھر بوٹ NT مشین [NAME] میں کابینہ [NAME] [محل وقوع] پر: اہم: [تاریخ اور وقت]"

یہ پیغامات ناراض لیبل لگا کیونکہ انہوں نے لفظ "اہم"، عام طور پر اس بات کی نشاندہی غصے لیکن اس معاملے میں ایسا نہیں کرتا کر سکتے ہیں جس شامل کیا گیا تھا. اس ایک خودکار طریقے پیجر کی طرف سے پیدا پیغامات ہٹاتے مکمل طور پر دن (چترا 2.2) کے دوران پر غصے میں بظاہر اضافہ کو ختم کرتا ہے. دوسرے الفاظ میں، میں اہم نتیجہ Back, Küfner, and Egloff (2010) ایک پیجر کے ایک artifact تھا. اس مثال کی وضاحت کرتا ہے کے طور پر، نسبتا پیچیدہ اور گندا اعداد و شمار کے نسبتا آسان تجزیہ کے سنجیدگی سے غلط جانے کی صلاحیت رکھتا ہے.

پیکر 2.2: 85،000 امریکی pagers کے بنیاد پر 11 ستمبر، 2001 کے دوران پر غصے میں متوقع رجحانات (پیچھے اگلا، Küfner، اور Egloff 2010؛ Pury 2011؛ ​​واپس، Küfner، اور Egloff 2011). اصل میں، واپس، Küfner، اور Egloff (2010) پورے دن غصے میں اضافہ کی ایک پیٹرن کو رپورٹ کیا. اہم: [تاریخ اور وقت] [محل وقوع] پر [NAME] کابینہ میں پھر بوٹ کریں NT مشین [NAME]: تاہم، یہ ظاہر ناراض پیغامات کے سب سے زیادہ ایک واحد پیجر بار بار مندرجہ ذیل پیغام باہر بھیجا اس کی طرف سے پیدا کیا گیا تھا. اس پیغام کو ہٹا دیا، غصے میں بظاہر اضافہ کے غائب (Pury 2011؛ ​​واپس، Küfner، اور Egloff 2011). یہ اعداد و شمار Pury (2011) میں انجیر 1B کے ایک پنروتپادن ہے.

پیکر 2.2: 85،000 امریکی pagers کے بنیاد پر 11 ستمبر، 2001 کے دوران پر غصے میں تخمینہ کے رجحانات (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . اصل میں، Back, Küfner, and Egloff (2010) پورے دن غصے میں اضافہ کی ایک پیٹرن کو رپورٹ کیا. "میں کابینہ [NAME] پھر بوٹ کریں NT مشین [NAME] [محل وقوع] پر:: اہم: [تاریخ اور وقت]" تاہم، ان بظاہر ناراض پیغامات کے سب سے زیادہ ایک واحد پیجر بار بار مندرجہ ذیل پیغام باہر بھیجا اس کی طرف سے پیدا کیا گیا تھا. اس پیغام کو ہٹا دیا، غصے میں بظاہر اضافہ کے غائب (Pury 2011; Back, Küfner, and Egloff 2011) . یہ اعداد و شمار میں انجیر 1B کے ایک پنروتپادن ہے Pury (2011) .

ایک کے شور سے کے طور پر غیر ارادی-طرح پیدا ہوتا ہے کہ گندے ڈیٹا کو ایک معقول حد تک محتاط محقق کی طرف سے پیجر-کر سکتے ہیں پتہ چلا جائے جبکہ، جان بوجھ spammers کو اپنی طرف متوجہ ہے کہ کچھ آن لائن نظام بھی موجود ہیں. یہ spammers کو فعال طور پر جعلی اعداد و شمار کو پیدا، اور اکثر ان سپیمنگ مخفی رکھنے کے لئے منافع کا کام بہت مشکل سے تحریک. مثال کے طور پر، ٹویٹر پر سیاسی سرگرمی جس کے تحت کچھ سیاسی وجوہات جان بوجھ کر وہ اصل ہیں کے مقابلے میں زیادہ مقبول نظر کرنے کی بنا رہے ہیں کم از کم کچھ معقول حد نفیس سپیم، شامل کرنے کے لئے لگ رہا ہے (Ratkiewicz et al. 2011) . اعداد و شمار کے ساتھ کام کرنے والے محققین نے جان بوجھ فضول پر مشتمل ہو سکتا ہے کہ ان کے سامعین وہ پتہ چلا اور متعلقہ سپیم سے نکال دیا گیا ہے کہ اس بات پر قائل کرنے کے چیلنج کا سامنا.

آخر میں، کیا سمجھا جاتا ہے گندی ڈیٹا آپ کی تحقیق کے سوالات پر ٹھیک ٹھیک طریقوں سے انحصار کر سکتے ہیں. مثال کے طور پر، وکی پیڈیا کے کئی ترامیم خود کار خودکار صارف کی طرف سے پیدا کی ہیں (Geiger 2014) . آپ ویکیپیڈیا کے ماحولیات میں دلچسپی رکھتے ہیں، اس کے بعد ان بوٹس اہم ہیں. لیکن، آپ کو انسانوں پیڈیا میں شراکت کس طرح میں دلچسپی رکھتے ہیں تو، ان بوٹس کی طرف سے بنایا ان ترامیم خارج کر دیا جائے چاہئے.

سب سے بہترین طریقوں میں گندی ڈیٹا آپ کے ڈیٹا کو اس طرح کے طور پر سادہ بکھیر مکر بنانے، سادہ ریسرچ تجزیہ کو انجام دینے پیدا کیا گیا ہے کہ کس طرح سمجھنے کے لئے ہیں کی طرف سے نہیں بیوکوف بنایا جا رہا ہے سے بچنے کے لئے.