وڌيڪ تفسير

هن ترجمي ۾ هڪ ڪمپيوٽر ذريعي پيدا ڪيو ويو آهي. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

وڌيڪ تفسير

هن حصي جي بجاء هڪ داستان طور پڙهي وڃي هڪ حوالي طور استعمال ڪيو وڃي ٿو ٺهيل آهي.

تعارف (سيڪشن 2.1)

ته مشاهدو جو هڪ قسم جو هن باب ۾ شامل نه آهي ethnography آهي. ڊجيٽل خال ۾ ethnography تي وڌيڪ لاء ڏسندا Boellstorff et al. (2012) ، ۽ ethnography تي وڌيڪ لاء خيالات ڊجيٽل ۽ جسماني خال ۾ ڏسي Lane (2016) .

وڏي ڊيٽا (سيڪشن 2.2)

توهان ڊيٽا repurposing آهن جڏهن، اتي ٻه ذهني تجويزون اوھان جي لحاظ کان ڪو مسئلو آهي ته اوھان کي ملڻ ٿئي سمجهڻ ۾ مدد ڪري سگهي ٿو ته آهن. پهريون، توهان پنهنجي مسئلي جي لاء موزون dataset تصور ڪرڻ ۽ ان جي dataset ته توهان استعمال ڪري رهيا آهيو کي compare ته ڪوشش ڪري سگهن ٿا. اهي ڪيئن جهڙيون آهن ۽ اهي ڪيئن مختلف آهي؟ توهان پنهنجي پاڻ کان اوھان جي انگن اکرن کي گڏ نه ڪيو ته، اتي ڇا توهان چاهيو ٿا ۽ جيڪي اوھان آهن جي وچ ۾ فرق ٿيڻ جو امڪان آهي. پر، تون ته اهي اختلاف معمولي يا اهم آهن جو فيصلو ڪيو آهي.

ٻيو، ياد آهي ته ڪو ماڻهو پيدا ٿي ۽ ڪي سبب لاء پنهنجي ڊيٽا کي گڏ ڪري. تون سندن استدلال کي سمجهڻ جي ڪوشش ڪرڻ گهرجي. روڪڻ-انجنيئرنگ جي اهڙي قسم جي اوھان کي اوھان جي repurposed جي انگن اکرن ۾ ممڪن مسئلا ۽ پير پساري سڃاڻپ ڪرڻ ۾ مدد ڪري سگهي ٿو.

نه "وڏي ڊيٽا" جي ڪو هڪ اتفاق وصف آهي، پر ڪيترن ئي معنائون جي 3 مدرسه تي ڌيان ڏيڻ لاء لڳي: مقدار، ڳالهه ٻولهه، ۽ جي رفتار (مثال طور، Japec et al. (2015) ). ڊيٽا جي ڪنڀار تي توجهه جي ڀيٽ ۾ بلڪ، منهنجي وصف ڇو ڊيٽا کي پيدا ڪيو ويو پر ان کان وڌيڪ آهي.

وڏي ڊيٽا جي درجه بندي اندر حڪومت جي انتظامي ڊيٽا جي منهنجي شموليت جو ذرو unusually آهي. ٻيا جيڪي هن ڪيس ڪيو آهي، شامل آهن Legewie (2015) ، Connelly et al. (2016) ، ۽ Einav and Levin (2014) . تحقيق جي لاء حڪومت جي انتظامي ڊيٽا جي اهميت جي باري ۾ وڌيڪ لاء، ڏسڻ Card et al. (2010) ، Taskforce (2012) ، ۽ Grusky, Smeeding, and Snipp (2015) .

سنڌ جي حڪومت جي انگن نظام، خاص طور تي آمريڪا جي مردم شماري اندر کان انتظامي تحقيق جو هڪ نظر لاء، ڏسڻ Jarmin and O'Hara (2016) . سنڌ سويڊن ۾ انتظامي رڪارڊ تحقيق جو هڪ ڪتاب جي ڊيگهه علاج لاء، ڏسڻ Wallgren and Wallgren (2007) .

هن باب ۾، مون کي مختصر طور اهڙي Twitter ۽ جيئن ته هڪ سماجي ميڊيا جي انگن اکرن ذريعو کي جيئن جو جنرل سماجي سروي (GSS) جي طور تي هڪ روايتي سروي جي مقابلي ۾. روايتي سروي ۽ سوشل ميڊيا جي انگن اکرن جي وچ ۾ چڱي طرح ۽ محتاط جي مقابلي لاء، ڏسڻ Schober et al. (2016) .

وڏي ڊيٽا جي عام ڪنڀار (سيڪشن 2.3)

وڏي ڊيٽا جا اهي 10 ڪنڀار مختلف طريقن جي هڪ قسم ۾ مختلف ليکڪن جي هڪ قسم جي بيان ڪيو ويو آهي. لکڻ ته انهن مسئلن تي منهنجي سوچ جي اثر هيٺ شامل آهن: Lazer et al. (2009) ، Groves (2011) ، Howison, Wiggins, and Crowston (2011) ، boyd and Crawford (2012) ، Taylor (2013) ، Mayer-Schönberger and Cukier (2013) ، Golder and Macy (2014) ، Ruths and Pfeffer (2014) ، Tufekci (2014) ، Sampson and Small (2015) ، Lewis (2015) ، Lazer (2015) ، Horton and Tambe (2015) ، Japec et al. (2015) ، ۽ Goldstone and Lupyan (2016) .

هن باب ۾، مون کي مدت ڊجيٽل بصر، جنهن مون کي خيال نسبتا اڻ ڌريو آهي استعمال ڪيا آهن. ڊجيٽل بصر لاء ٻيو مشهور مدت ڊجيٽل نقشه قدم آهي (Golder and Macy 2014) ، پر هال Abelson، کين Ledeen، ۽ هيري Lewis طور (2008) کان ٻاهر نڪتو، هڪ کان وڌيڪ مناسب مدت شايد ڊجيٽل fingerprints آهي. ۽ جڏھن اوھان کي نقشه ٺاهي، اوهان کي ڇا آھي کان واقف آھن، ۽ اوھان جي نقشه عام طور تي ذاتي طور اوھان کي ملن نه ٿو ڪري سگهجي. ساڳي ئي پنهنجي ڊجيٽل بصر لاء سچ نه آھي. حقيقت ۾، توهان کي بصر ڇڏڻ آهن سڀ وقت جنهن جي باري ۾ توهان کي تمام ٿورو علم آهي. ۽، باقي انهن بصر انھن تي پنهنجو نالو نه ٿا، اهي اڪثر واپس اوھان سان جڙيل ڪري سگهجي ٿو. لڪل ۽ ذاتي شناخت: ٻين لفظن ۾، اهي وڌيڪ fingerprints وانگر آهن.

بگ

ڇو وڏي datasets، سگهندي انگن تجربن نصيحت تي وڌيڪ لاء، ڏسڻ Lin, Lucas, and Shmueli (2013) ۽ McFarland and McFarland (2015) . انهن مسئلن جي تحقيق ڏس انگن اهميت بجاء عملي اهميت تي ڌيان ڏيڻ لاء گهرجي.

هميشه-تي

جڏهن هميشه-تي سٺن انگن اکرن، ان تي غور ڪرڻ لاء ڇا توهان وقت تي ٺيڪ ٺاڪ ساڳيو ماڻهو comparing آهن يا اوھان کي ماڻهن جي ڪجهه تبديليء جي گروپ comparing رهيا آهن ته ڇا ضروري آهي. مثال جي طور تي ڏسي، Diaz et al. (2016) .

غير reactive

غير reactive قدمن تي هڪ شاندار ڪتاب آهي Webb et al. (1966) . ڪتاب پري-تاريخ ۾ سنڌ جي مثال کي ڊجيٽل عمر، پر اهي اڃا تائين روشن آهن. ڪاميٽي ڪيمرائون لڳائڻ جي موجودگي جي، ڇاڪاڻ ته انهن جي رويي کي تبديل ڪرڻ جي قوم جي مثال طور، ڏسي Penney (2016) ۽ Brayne (2014) .

نامڪمل

رڪارڊ linkage تي وڌيڪ لاء، ڏسڻ Dunn (1946) ۽ Fellegi and Sunter (1969) (تاريخي) ۽ Larsen and Winkler (2014) (جديد). ساڳي پيشڪش به اهڙي ڊيٽا deduplication، مثال طور سڃاڻپ، نالي سميلن ۾ جيئن نالا هيٺ ڪمپيوٽر سائنس ۾ ترقي ڪري ڇڏيو ويو، ڳولا جھڙا آھن، ۽ رڪارڊ ڳولا جھڙا آھن (Elmagarmid, Ipeirotis, and Verykios 2007) . نه به خانگي نوعيت واري رڪارڊ linkage لاء اچي جنهن جي ذاتي معلومات جي شناخت جي سند جي ضرورت نه ڪندا آھن اتساهڻ آھن (Schnell 2013) . ڪريو به هڪ رويو ووٽ لاء سندن رڪارڊ ڪڙي کي اڳتي ترقي ڪري ڇڏيو آهي. هن هڪ آزمائش آهي ته مون کي باب 4 ۾ جي باري ۾ توهان کي ٻڌايو ته ويندس ويجهڙائيء ۾ ٿي چڪو هو (Bond et al. 2012; Jones et al. 2013) .

ڪنسٽرڪٽ جي درستي تي وڌيڪ لاء، ڏسڻ Shadish, Cook, and Campbell (2001) ، باب 3.

نه سگهبو

جي يويل ڳولا لاگ ان debacle تي وڌيڪ لاء، ڏسڻ Ohm (2010) . مون کي ڪمپنين ۽ سوره 4 ۾ حڪومت سان ڀائيواري ڪندو جڏهن مون کي تجربن بيان جي باري ۾ صلاح آڇ. ليکڪ جو تعداد ته نه سگهبو ڊيٽا تي تحقيق جي باري ۾ ڏک، ڏسڻ جو اظهار ڪيو Huberman (2012) ۽ boyd and Crawford (2012) .

يونيورسٽي تحقيق ڊيٽا تائين رسائي حاصل ڪرڻ لاء هڪ سٺي واٽ هڪ intern يا زيارت محقق طور هڪ ڪمپني ۾ ڪم ڪرڻ آهي. ڊيٽا تائين رسائي اهڙن ڪرڻ کان سواء، هن عمل کي به مدد ڪندو ته محقق جي باري ۾ ته ڪيئن ڊيٽا کي پيدا ڪيو ويو وڌيڪ معلوم ٿئي ٿو، جنهن جي ڇنڊڇاڻ لاء اهم آهي.

غير نمائنده

غير نمائندگي تحقيق ۽ حڪومتن جو هڪ علامه صاحب جي آبادي جي باري ۾ بيان ڪرڻ جي خواهش لاء هڪ اهم مسئلو آهي. هن ڪمپنين ته وضاحت سان انهن جي استعمال ڪندڙن تي روشني وڌي رهيا آهن لاء خيالن جي گهٽ آهي. ڪيئن سنڌ هالينڊ ڪاروبار جي غير نمائندگي وڏي ڊيٽا جي مسئلي ڄاتائين تي وڌيڪ لاء، ڏسڻ Buelens et al. (2014) .

باب 3 ۾، مون کي الله تعالي تمام تفصيل سان هوندا آهن ۽ اندازي مطابق بيان ڪنداسين. جيتوڻيڪ جيڪڏهن ڊيٽا غير نمائنده آهن، ڪجهه حالتن هيٺ، اهي سٺي انومان پيدا ڪرڻ weighted ڪري سگهجي ٿو.

رهيو آهي

نظام drift جي ٻاهر کان ڏسڻ لاء تمام ڏکي آهي. تنهن هوندي به، جي MovieLens منصوبي (باب 4 ۾ وڌيڪ ڳالهه ٻولهه) هڪ علمي تحقيق جي گروپ جي 15 سالن کان وڌيڪ لاء هلائي وئي آهي. تنهن ڪري، اهي قلمبند ۽ واٽ ته هن نظام وقت تي ٻارهين ڪري ڇڏيو آهي ۽ هن کي ڪيئن تجزيو اثرانداز ٿئي جي باري ۾ معلومات حصيداري آهن (Harper and Konstan 2015) .

عالمن جو تعداد Twitter ۾ drift تي روشني وڌي ويا آهن: Liu, Kliman-Silver, and Mislove (2014) ۽ Tufekci (2014) .

Algorithmically ڦاٽي

مون کي پهريون ڀيرو ٻڌي جي مدت "algorithmically ڦاٽي" هڪ ڳالهائي رهيو ۾ Jon Kleinberg جي استعمال. performativity پٺيان بنيادي خيال آهي ته ڪي سماجي سائنس جي شادي ڪرائي "انجڻين نه cameras" آهي (Mackenzie 2008) . ته اهي اصل ۾ دنيا جي شڪل بجاء صرف ان کي پڪڙڻ، آهي.

گندي

Governmental انگن ادارن جي انگن اکرن جي صفائي، انگن اکرن کي آڻيندي سڏي. De Waal, Puts, and Daas (2014) سروي جي انگن اکرن جي لاء ترقي انگن اکرن کي ايڊيٽنگ جي طريقن سان بيان ۽ جنهن حد تائين اهي وڏي انگن اکرن کان هٽي ڪري، ۽ کي لاڳو آهن کي ٻڌڻ Puts, Daas, and Waal (2015) هڪ کان وڌيڪ عام پهتو لاء هڪ ئي خيال جي ڪجهه ڪارڻ آهي.

Twitter ۾ اسپام تي روشني وڌي پڙهائي جي ڪجهه مثال طور، Clark et al. (2016) ۽ Chu et al. (2012) . آخر ۾، Subrahmanian et al. (2016) جي DARPA Twitter ۽ باٽ چئلينج جي نتيجن کي بيان ڪري ٿو.

حساس

Ohm (2015) جائزي حساس معلومات جي خيال تي اڳ تحقيق ۽ هڪ گھڻ-عامل امتحان مليو آهي. هن چار عنصر هن proposes آهن: ڏک جي ممڪن؛ ڏک جي ممڪن؛ هڪ خفيه تعلقي جي موجودگي؛ ۽ ڇا جي خطري majoritarian خدشن جو ڌيان.

ڳڻپ شيون (سيڪشن 2.4.1)

نيو يارڪ ۾ taxis جي Farber جي مطالعي جي هڪ اڳ مطالعي جي بنياد تي ڪيو ويو Camerer et al. (1997) اخبار سفر جا پردا-پيپر ڊرائيور جي استعمال سفر لکندڙ لاء فارم جي ٽن مختلف سهولت نموني استعمال ڪيو آهي ته ان وقت، آخر ۾ وقت، ۽ ڀتو شروع ٿي. هن کان اڳ مطالعي مليو ته ڊرائيور ٽارگيٽ earners ٿي رهيو: اهي گهٽ ڪم ڏينهن جتي سندن اجر اعلي هئا تي.

Kossinets and Watts (2009) سماجي نيٽ ورڪن ۾ homophily جي اڀرندڙ تي روشني وڌي ويو. ڏسو Wimmer and Lewis (2010) جي هڪ ئي مسئلو جنهن ڪريو مان ڊيٽا کي استعمال ڪرڻ لاء هڪ مختلف اچڻ لاء.

پوء ڪم ۾، بادشاهه ۽ ساٿيو وڌيڪ چين ۾ آن لائن سينسرشپ explored آهن (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . چين ۾ آن لائن سينسرشپ جريب کي ملندڙ اچڻ لاء، ڏسڻ Bamman, O'Connor, and Smith (2012) . ۾ استعمال جي هڪ وانگر انگن طريقن تي وڌيڪ لاء King, Pan, and Roberts (2013) جي 11 لک تحريرن جي جذبي جو اندازو ڪري، ڏسي Hopkins and King (2010) . ڪريڊ سکيا تي وڌيڪ لاء، ڏسڻ James et al. (2013) (گهٽ فني) ۽ Hastie, Tibshirani, and Friedman (2009) (وڌيڪ فني).

Forecasting (سيڪشن 2.4.2)

Forecasting صنعتي ڊيٽا سائنس جو هڪ وڏو حصو آهي (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . forecasting جو هڪ قسم آهي ته عام طور تي سماجي تحقيق جي ڪم ڪري رهيا آهن ڊيموگرافڪ forecasting، مثال طور آهن Raftery et al. (2012) .

گوگل فلو لاڙا انفلوئنزا گهڻيون nowcast کي تلاش ڊيٽا کي استعمال ڪرڻ جي پهرين منصوبي نه هو. حقيقت ۾، گڏيل قومن ۾ تحقيق (Polgreen et al. 2008; Ginsberg et al. 2009) ۽ سويڊن (Hulth, Rydevik, and Linde 2009) ڪجهه تلاش جي اصطلاحن ته مليا آهن (مثال طور، "فلو") اڳڪٿي قومي عوامي صحت ڪيمرائون انگن اکرن کان اڳ ان کي آزاد ڪيو ويو. تنهن کان پوء ڪيترن ئي، ڪيترن ئي ٻين منصوبن جي بيماري ڪيمرائون ڳولا لاء ڊجيٽل جو سراغ ڊيٽا کي استعمال ڪرڻ لاء، ڏسڻ جي ڪوشش ڪئي آهي Althouse et al. (2015) هڪ جائزو وٺڻ لاء.

صحت جي مالڪي گوئي کي ڊجيٽل جو سراغ ڊيٽا کي استعمال ڪرڻ کان سواء، ڪو به Twitter ۽ ڊيٽا کي استعمال ڪندي اليڪشن مالڪي گوئي کي ڪم جي هڪ وڏي رقم ڪئي وئي آهي؛ جائزي لاء ڏسي Gayo-Avello (2011) ، Gayo-Avello (2013) ، Jungherr (2015) (چوڌري. 7)، ۽ Huberty (2015) .

انفلوئنزا گهڻيون predicting ۽ گوئي کي چونڊن جي دنيا ۾ واقعي جي ڪجهه قسم گوئي کي ڊجيٽل جو سراغ جي ڪجهه قسم جي استعمال ڪرڻ جي ٻنهي مثال آهن Twitter ۽ ڊيٽا کي استعمال ڪرڻ جي ڳولا ڊيٽا کي استعمال ڪندي. پڙهائي هن جنرل جي جوڙجڪ آهي ته جي هڪ شاندار نمبر نه. ٽيبل 2.5 چند ٻيا مثال شامل آهن.

ٽيبل 2.5: پڙهائي ڪي ڊجيٽل جو سراغ استعمال ڪي واقعي گوئي ڪرڻ جي جزوي فهرست.
ڊجيٽل جو سراغ	ڪالهه	Citation
Twitter	آمريڪا ۾ فلم جي باڪس آفيس جي وڏن	Asur and Huberman (2010)
تلاش جي لاگن	آمريڪا ۾ فلم، موسيقي، ڪتابن، ۽ وڊيو گيمز جي سهڻا	Goel et al. (2010)
Twitter	ميڊيڪل ڪمار صنعتي سراسري (آمريڪا جي اسٽاڪ مارڪيٽ ۾)	Bollen, Mao, and Zeng (2011)

Approximating تجربن (سيڪشن 2.4.3)

جڏهن ته جرنل پي ايس پوليٽيڪل سائنس وڏي ڊيٽا، causal inference، ۽ رواجي نظريي تي هڪ symposium هئا، ۽ Clark and Golder (2015) هر حصو summarizes. هن آمريڪا جي گڏيل رياستن جي سائنس جي قومي اڪيڊمي جي جرنل کڻي وينداسين causal inference ۽ وڏي ڊيٽا تي هڪ symposium هئا، ۽ Shiffrin (2016) هر حصو summarizes.

قدرتي تجربن جي سلسلي ۾، Dunning (2012) هڪ شاندار ڪتاب جي ڊيگهه علاج مهيا ڪري. هڪ قدرتي آزمائش طور ويتنام مسودو lottery استعمال ڪرڻ تي وڌيڪ لاء، ڏسڻ Berinsky and Chatfield (2015) . مشين سکيا اچي ويل ڊيٽا وسيلن جي اندر خودڪار طريقي سان قدرتي تجربن جي کوج ڪرڻ جي ڪوشش ڪئي آهي ته لاء، ڏسڻ Jensen et al. (2008) ۽ Sharma, Hofman, and Watts (2015) .

سميلن جي سلسلي ۾، هڪ پراميد جائزو وٺڻ لاء، ڏسڻ Stuart (2010) ، ۽ هڪ pessimistic جائزو وٺڻ لاء ڏسي Sekhon (2009) . pruning جي هڪ قسم جي طور تي سميلن تي وڌيڪ لاء، ڏسي Ho et al. (2007) . ڪتابن ۾ ته سميلن جو چڱو علاج مهيا ڪرڻ لاء، ڏسڻ Rosenbaum (2002) ، Rosenbaum (2009) ، Morgan and Winship (2014) ، ۽ Imbens and Rubin (2015) .