2.2 Big معلومات

لوی معلومات د شرکتونو او حکومتونو لخوا د څیړنې پرته د اهدافو لپاره رامینځ ته شوي او راټول شوي دي. د څیړنې لپاره د دې ډاټا کارولو څخه، نو بیا د بیرته راګرځولو اړتیا ته اړتیا لري.

لومړی لاره چې ډیری خلک په ډیجیټل عمر کې د ټولنیزو څیړنو سره مخامخ دي هغه څه دي چې ډیری وخت یې د لوی معلوماتو په نوم یادېږي. د دې اصطالح د پراخه استعمال سره سره، د دې په اړه کوم موافقه شتون نلري چې کوم لوی معلومات هم شتون لري. په هرصورت، د لویو معلوماتو ډیرو عام تعریفونو "3 Vs" تمرکز کوي: حجم، مختلفو، او مخکی. په بیلابیلو ډولونو کې ډیری ارقام شتون لري، او دا په منظمه توګه رامینځ ته کیږي. د لوی معلوماتو ډیرو مینځلو کې نور "Vs" لکه د وړتیا او ارزښت په شمول هم شاملوي، پداسې حال کې چې ځینې اخالقي کسان د V. Vague او Vacuous په څیر نور اضافه کوي. د ټولنیزو څیړنو اهدافو لپاره د "3s" (یا 5 "Vs" یا 7 "Vs") په پرتله، زما په اند د پیل کولو لپاره غوره ځای 5 "Ws" دي: څوک، څه، چیرې، کله ، او ولې. په واقعیت کې، زه فکر کوم چې د ډیری ارقامو سرچینو لخوا رامینځته شوي ننګونې او فرصتونه د "W" څخه پیروي کوي: ولې.

په انالال عمر کې، ډیری ارقام چې د ټولنیزو څیړنو لپاره کارول شوي وو د څیړنې په موخه رامنځته شوي. په هرصورت، په ډیجیټل عمر کې د شرکتونو او حکومتونو لخوا د څیړنو پرته بل هدف، د خدماتو چمتو کولو، د تولیداتو ګټې، او اداره کولو لخوا ډیری ډیټابیس جوړیږي. که څه هم تخليقی خلک پوهیدلي چې تاسو کولی شئ د دې کارپوریشن او دولتي معلوماتو څیړنې لپاره بیرته ستانه کړئ. په 1 برخه کې د ارزو سره سم په ارګ کې فکر کول، لکه څنګه چې ډچیمپ د هنر جوړولو لپاره د موندلو اعتراض بدل کړ، ساینس پوهان اوس کولی شي د معلوماتو موندلو لپاره تحقیقات پیدا کړي.

پداسې حال کې چې بې له شکه د بیا رغونې لپاره خورا لوی فرصتونه شتون لري، د هغو معلوماتو کارولو لپاره چې د څیړنو اهدافو لپاره ندي رامینځته شوي نو نوي ننګونې وړاندې کوي. د مثال په توګه، د ټولنیز رسنیو خدمت، لکه ټویټر، د عامه نظرپوښتنې سروې سره، لکه عمومي ټولنیز سروې. د ټویټر اصلي اهداف د خپلو کاروونکو لپاره خدمت چمتو کوي او ګټه ترلاسه کوي. له بلې خوا عمومي ټولنیزې سروې، د ټولنیزو څیړنو لپاره په عمومي توګه د ارقامو ډاټا جوړول، په تیره بیا د عامه نظر څیړنې لپاره. په اهدافو کې دا توپیر پدې معنی دی چې د ټیکټ لخوا جوړ شوي ډاټا او د عمومي ټولنیز سروې لخوا رامینځ ته شوي معلومات مختلف خصوصیات لري، حتی که دواړه دواړه د عامه نظرونو د مطالعې لپاره کارول کیدی شي. ټویټر په پیمانه او سرعت کار کوي چې عمومي ټولنیزه سروې نشي کولی سره وخوشي، مګر، د عمومي ټولنیز سروې په څیر، ټویټر د کاروونکو نمونه نه په نښه کوي او د وخت په تېرولو سره سخت مقاومت نه کوي. ځکه چې د دغو دوو ارقامو سرچینې ډیر توپیر لري، دا معنی نلري چې ووایي چې عمومي ټولنیزه سروې د ټویټر څخه غوره یا بلکه غوره ده. که تاسو غواړئ چې د نړیوالو موخو لپاره د ساعتونو لپاره اقدامات وکړئ (د مثال په توګه، Golder and Macy (2011) (، ټویټر غوره دی. له بل پلوه، که تاسو غواړئ په متحده ایاالتو کې د چلند په ګوټ ګوټ کې د اوږد مهاله بدلونونو په اړه پوه شئ) د مثال په توګه، DiMaggio, Evans, and Bryson (1996) (، بیا د عمومي ټولنی سروې غوره انتخاب دی. په عمومي توګه، د ډیټا ډیټا سرچینو بحث کولو هڅه کول د نورو ډولونو په پرتله غوره یا بدتر دي، دا څپرکی به هڅه وکړي چې د کوم ډول څیړنې پوښتنې د معلوماتو ډیټا سرچینې ولري او کوم ډول پوښتنې چې ممکن نه وي مثالي.

کله چې د ډیری ارقامو سرچینو په اړه فکر وکړو، ډیری څیړونکي د فاکسانو لخوا رامنځته شوي او راټول شوي انټرنیټ سمدستي تمرکز کوي، لکه د پلټنې انجنونو او ټولنیزو رسنیو پوسټونو. په هرصورت، دا محدود تمرکز د لویو معلوماتو دوه نورې مهمې سرچینې خپروي. لومړی، په زیاتیدونکي توګه د لوی لوی معلوماتو سرچینې په فزیکي نړۍ کې د ډیجیټل وسیلو څخه راځي. د بیلګې په توګه، پدې فصل کې، زه به تاسو ته د یوې څیړنې په اړه ووایم چې د سپرمارټ د چک لیست ډاټا ته یې وڅیړله ترڅو وپوهیږي چې د کارګر تولید څه ډول د هغې د همکارانو لخوا اغیز شوی دی (Mas and Moretti 2009) . بیا، په راتلونکو فصلونو کې، زه تاسو ته د څیړونکو په اړه ویلی شم چې د ګرځنده تلیفونونو ریکارډونه (Blumenstock, Cadamuro, and On 2015) او د بریښنا د اسانتیاوو لخوا رامینځته شوي ډاټا معلوماتو (Allcott 2015) . لکه څنګه چې دا مثالونه روښانه کوي، د شرکت لوی لوی سرچینې د آنلاین چلند څخه ډیر څه دي.

د ډیرو مهمو معلوماتو سرچینه دویمه مهمه سرچینه د آنلاین چلند په اړه د یو محدود تمرکز له امله د دولت لخوا چمتو شوي معلومات دي. د حکومت دغه معلومات، کوم چې څیړونکي د حکومتي اداري ریکارډونو غوښتنه کوي ، شامل دي لکه د مالیاتو ریکارډونه، د ښوونځي ریکارډونه، او د احصایې مهم احصائیې) د مثال په توګه، د زیږونونو او مړینې راجستر (. حکومتونه دا ډول معلومات چمتو کړي، په ځینې مواردو کې، په سلګونو کلونه، او ټولنیز ساینس پوهانو د دوی لپاره تقریبا تر هغه وخته استثناء کوي چې هلته ټولنیز ساینس پوهان شتون لري. که څه هم بدلون راغلی، مګر، د digitization دی، کوم چې دا د حکومتونو لپاره راټول شوي، لیږدولو، ذخیره کولو، او تجزیه کولو لپاره په ډراماتیک ډول سره کړی دی. د بیلګې په توګه، پدې فصل کې، زه به تاسو ته د یوې څیړنې په اړه ووایم چې د نیویارک ښار حکومت د ډیجیټل ټیکی میټر څخه ډاټا بیرته تکرار کړې ترڅو د کارګر اقتصاد (Farber 2015) اصلي (Farber 2015) کې د اساسي بحثونو په نښه کولو لپاره. بیا، په راتلونکو فصلونو کې، زه به تاسو ته ووایم چې څنګه د حکومت راټول شوي ریکارډونه په یوه سروې کې (Ansolabehere and Hersh 2012) او یو تجربه (Bond et al. 2012) .

زه فکر کوم چې د بیا راګرځولو مفکوره د سترو معلوماتو سرچینو څخه زده کړه کول دي، او له دې امله، په ځانګړي ډول د لوی معلوماتو سرچینو (د دویمې برخې 2.3) او د څیړنې په برخه کې څنګه کارول کیدلای شئ (برخه 2.4) د بیرته راستنېدو په اړه د دوه مشورو عمومي مشوره وړاندې کړئ. لومړی، دا د فاسد کولو لپاره کیدی شي چې د هغه برعکس په اړه فکر وکړم چې ما د "موندلو" ډاټا او "ډیزاین" ډاټا ترمنځ تر منځ جوړ کړی. دا نژدې دی، مګر دا سمه نده. که څه هم، د څیړونکو له نظره، د معلوماتو لوی سرچینې "موندلي" دي، دوی یوازې د آسمان څخه نه راځي. پرځای یې، د ارقامو سرچینې چې "څیړونکي" دي د یو چا لخوا د ځینو موخو لپاره ډیزاین شوي. ځکه چې "وموندل" ډاټا د یو چا لخوا ډیزاین شوي، زه تل سپارښتنه کوم چې تاسو د هغو خلکو او پروسو په اړه چې ستاسو معلومات یې پیدا کړي څومره ممکن ممکن پوه شئ. دوهم، کله چې تاسو د ارقامو تکرار کول، دا ډیری وختونه ستاسو د ستونزې لپاره مثالی ډاټا تصور کولو لپاره خورا ګټور وي او بیا د هغه مثالي ډاټاټیس پرتله کولو سره چې تاسو یې کاروئ پرتله کړئ. که تاسو خپل ځان خپل معلومات راټول نه کړل، احتمال شته چې د هغه څه تر مینځ مهم توپیرونه وي چې تاسو یې غواړئ او څه یې لرئ. دا توپیرونه به په نښه کولو کې مرسته وکړي چې تاسو یې کولی شئ او هغه معلومات چې تاسو یې لرئ نه پوهیږئ، او دا کیدی شي نوي معلومات وړاندیز کړي چې تاسو باید راټول کړئ.

زما په تجربه کې، ټولنیز ساینس پوهان او د ارقامو پوهانو په بیلابیلو ډولونو سره د بیا ځای کولو لپاره تګ راتګ کوي. ټولنیز ساینس پوهان، چې د څیړنې لپاره ډیزاین شوي ارقامو سره کار کولو لپاره عادي دي، په خاصه توګه چټک دي چې د ځپلو ارقامو ستونزو سره سم د دې ځواک څخه سترګې پټې کړي. له بلې خوا، د ارقام پوهانو په خاصه توګه چټکه ده چې د بیاپټولو ډاټا ګټو ته اشاره وکړي پداسې حال کې چې د هغه ضعیفونو په پام کې نیولو سره. په طبيعي توګه، غوره لارښوونه يوه هكله ده. دا، څیړونکي باید د لوی معلوماتو سرچینو ځانګړتیاوې په پام کې ونیسي - دواړه ښه او بد دواړه - او وروسته معلومه کړئ چې له هغوی څخه څنګه زده کړه. او، دا د دې فصل پاتې برخه دی. په راتلونکې برخه کې، زه به د سترو ارقامو سرچینو لس عام ځانګړتیاوې تشریح کړم. بیا، په لاندې برخه کې، زه به د څیړنې درې طریقې تشریح کړم چې کولی شي د دې معلوماتو سره ښه کار وکړي.