2.3.1 لوی

لوی بنسټيز دي پای ته د يوې وسيلې په؛ دوی په خپل ځان د پای نه دي.

د لوی معلوماتو سرچینو ترټولو تر ټولو پراخه بحث شوې موضوع دا ده چې دوی BIG دي. ډیری کاغذونه، د بیلګې په توګه، په بحث کولو پیل پیلوي - او ځینې وختونه د ککړتیا په اړه - پدې اړه چې څومره شننه یې تحلیل شوې. د بیلګې په توګه، د گوگل کتاب په قول اردو کې د سیسټم په مطالعه کولو کلام کې خپره شوې مقاله - د کارونې استعمال رجحانات شامل دي (Michel et al. 2011) :

"زموږ زموږ په قول 500 ملیارده کلمې لري، په انګلستان کې (361 ملیارده)، فرانسوي (45 ملیارد)، اسپانوی (45 ملیارده)، آلمان (37 ملیارده)، چینايي (13 ملیارد)، روسیه (35 ملیارده)، او عبراني (2 ملیارډ). زاړه کارونه په 1500s کې خپرې شوي. لومړنۍ لسیزې په کال کې یوازې یو څو کتابونه وړاندې کوي، چې په کې د سلګونو زرو کلمو شامل دي. په 1800 م کال کې، دا قول په کال کې 98 میلیونو ته رسیږي. د 1900 کال پورې، 1.8 ملیارد؛ او 2000 کال کې، 11 ملیارد. مرکه د انسان لخوا نه شي لوستلی. که تاسو د 2000 ژبې څخه یواځې د 2000 ژبې څخه یوازې د انګریز ژبې ژبې لیکنې لوستلو هڅه کوله، د 200 کلمو / منٹ مناسب نرخ پرته، د خواړو او خوب لپاره پرته له خنډ پرته، دا به 80 کاله وخت ونیسي. د لیکونو ترتیب د انسان جینوم څخه 1000 ځله اوږد دی: که تاسو دا په مستقیم ډول لیکلی و، نو دا به چاند ته ورسیږي او لس ځله وروسته به. "

د دې ډاټا بیخي بې اغیزه ده، او موږ ټول خوشحاله یو چې د Google Books ټیم دا ډاټا خلکو ته خپاره کړي (په حقیقت کې، د دې څپرکی په پای کې ځینې فعالیتونه د دې ډاټا کارول). مګر، کله چې تاسو د دې په څیر یو څه ګورئ تاسو باید وپوښتئ: آیا دا ټول هغه معلومات چې ریښتیا یې کولی شي؟ آیا دوی کولی شو ورته څیړنې ترسره کړې که چیرې معلومات رایس ته راشي او یوازې یو ځل بیرته راشي؟ که څه هم دا معلومات یواځې د ماین ایستسټ چوکۍ ته رسیږي یا د اییل ټاور تر ټولو لوړ وي؟

پدې حالت کې، د دوی څیړنه، په واقعیت کې، داسې موندنې لري چې د اوږدې مودې په اوږدو کې د کلمو لوی لویه اړتیا ته اړتیا لري. د بیلګې په توګه، هغه څه چې دوی یې پیژني د ګرامر ارتقاء ده، په ځانګړې توګه د غیرقانوني فعالو منازعې په نرخ کې بدلونونه. څرنګه چې ځینې غیرقانوني فعلونه خورا لږ دي، د ډیرو معلوماتو ډاټا ته اړتیا ده چې په وخت سره بدلونونه وپیژني. په هرصورت، په هرصورت، څیړونکي داسې ښکاري چې د لوی معلوماتو سرچینې اندازه د پای پای په توګه وپیژني- "وګورئ چې څومره ځینې سیسټمونه مینځ ته راوړي" - د ځینو مهمو علمي موخو لپاره د وسیلو په پرتله.

زما په تجربه کې، د نادر پیښو مطالعه د دریو ځانګړو ساینسي پایلو څخه ده چې ډیټ डेटाونه یې توان لري. دویمه برخه د هیتروجینتا مطالعه ده، لکه څنګه چې په متحده ایالاتو کې د ټولنیز خوځښت په اړه د راج چټیټ او همکارانو (2014) لخوا د یوې څیړنې لخوا ښودل کیدی شي. په تیرو وختونو کې ډیری څیړونکو د مور او پلار او ماشومانو د ژوند پایلو سره سم ټولنیز خوځښت مطالعه کړی. د دې ادبیاتو یوه دوامداره موندنه دا ده چې ګټور والدین یې ګټور ماشومان لري، مګر د دې اړیکو پیاوړتیا په وخت او په ټولو هیوادونو کې توپیر لري (Hout and DiPrete 2006) . په دې وروستیو کې، شینټی او همکاران د دې توان درلوده چې د 40 میلیونو خلکو څخه د مالیاتو ریکارډونه په متحده ایاالتو کې د بین المللي حرکت په برخه کې د تثبیتیت اټکل وکړي) 2.1 شکل (. دوی د بیلګې په توګه وموندل شول چې ماشوم د ملي عوایدو د ویش لوړ پوټینټل ته رسیږي چې د کورنۍ څخه د ټیټ کوینټلینټ څخه پیل کیږي په سان جوس، کیليفورنیا کې تقریبا 13٪ دی، مګر یوازې د شمالي کیرولینا، چارلوټ په سلو کې نږدې 4٪ دی. که تاسو 2.1 دقیقې ته وګورئ، تاسو شاید حیرانتیا پیل کړئ چې ولې د نورو په پرتله په ځینو ځایونو کې د بین المللي حرکت کچه ​​لوړه ده. Chetty او همکارانو ورته پوښتنه درلوده، او دوی وموندل چې د لوړې خوځښت ساحې لږ استوګن ځای لري، لږ عاید نابرابرۍ، غوره لومړني ښوونځي، ټولنیز پانګه اچونه، او د کورني ثبات ډیره برخه لري. په حقیقت کې دا اړیکې یوازې دا نه څرګندوي چې دا فکتورونه د لوړې خوځښت لامل ګرځي، مګر دوی ممکنه میکانیزمونه وړاندیز کوي کوم چې په نورو کارونو کې کیدی شي، په حقیقت کې کوم چې Chetty او همکارانو په راتلونکو کارونو کې ترسره کړي. په یاد ولرئ چې په دې پروژه کې د معلوماتو کچه څومره مهم وه. که چیرې شیټی او همکارانو د 40 ملیونو څخه پرته د 40 زرو خلکو مالیات ثبت کړي، نو دوی به د سیمه ایز جغرافیایی اټکل اټکل ونکړي او دوی به هیڅکله د دې څیړنې نه شي کولی ترڅو د میکانیزمونو پیژندلو هڅه وکړي چې دا توپیر رامنځته کوي.

شکل 2.1: د عاید د ویش 20٪ الس ته راوړلو د ماشومانو اټکل اټکل کوي چې والدین یې په ټیټه کچه 20٪ کې ورکړي (Chetty and al 2014). د سیمه ایزې کچې اټکلونه، چې د هیتججیتیا ښکارندوي کوي، په طبيعي ډول په زړه پورې او مهم پوښتنو ته الر هواروي چې د یو ملي کچې اټکل له امله نه راځي. د سیمه ییزې کچې اټکلونه په برخه کې ممکن وګرځیدل ځکه چې څیړونکي د لویو لویو معلوماتو سرچینې کاروي: د 40 میلیونو خلکو مالیات. په http://www.equality-of-opportunity.org/ کې د شته معلوماتو څخه رامینځ ته شوی.

شکل 2.1: د عاید د ویش 20٪ الس ته راوړلو د ماشومانو اټکل اټکل کوي چې والدین یې په ټیټه کچه 20٪ کې ورکړي (Chetty et al. 2014) . د سیمه ایزې کچې اټکلونه، چې د هیتججیتیا ښکارندوي کوي، په طبيعي ډول په زړه پورې او مهم پوښتنو ته الر هواروي چې د یو ملي کچې اټکل له امله نه راځي. د سیمه ییزې کچې اټکلونه په برخه کې ممکن وګرځیدل ځکه چې څیړونکي د لویو لویو معلوماتو سرچینې کاروي: د 40 میلیونو خلکو مالیات. په http://www.equality-of-opportunity.org/ کې د شته معلوماتو څخه رامینځ ته شوی.

په پای کې، د نادر پیښو مطالعې او د جغرافیایی مطالعې برسیره، لوی ډاټاټینټ همدا رنګه څیړونکي پدې توانوي چې کوچني توپیرونه کشف کړي. په حقیقت کې، د صنعت په لویو معلوماتو باندې تمرکز د دې کوچنیو توپیرونو په اړه دی: په مناسبه توګه د 1٪ او 1.1٪ ترمنځ د نرخونو له مخې د اشتغال کچه کولی شي د اضافي عایداتو په میلیونونو ډالرو ته ژباړل شي. په ځینې علمي سیسټمونو کې، که څه هم، دا کوچني اختلافات ممکن ځانګړي نه وي، حتی که دوی د احصایې وړ وي (Prentice and Miller 1992) . مګر، د ځینې پالیسیو ترتیباتو کې، دوی کولی شي مهم شي کله چې په مجموع کې لیدل کیږي. د بیلګې په توګه، که چیرې دوه عام روغتیا مداخلې شتون ولري او یو بل له بل څه اغیزمن وي، نو بیا غوره اغیزمنه مداخله کولی شي د زرګونو اضافي ژوند ژغورلو پای ته ورسوي.

که څه هم بجنس عموما یو ښه ملکیت دی کله چې سمه کارول کیږي، ما ولیدل چې دا کله کله کولی شي د مفکوره غلطۍ المل شي. د ځینو دلیلونو لپاره، بډایټ داسې ښکاري چې څیړونکي د مشرتابه څخه لیدنه کوي چې څنګه د دوی ډاټا تولید شوي. په داسې حال کې bigness آیا دا اړتیا ته تصادفي تېروتنې په اړه اندېښنه کم شي، دا په حقيقت کې د اړتیا ته په سیستماتیک ډول تېروتنې په اړه اندېښنه زیاتوي، د غلطيو د ډول چې زه به په لاندې چې د تشريح په ډول معلومات دي جوړ له تعصب راپورته. د بیلګې په توګه، په یوه پروژه کې به زه پدې وروستیو کې تشریح کړم، څیړونکو د 2001 کال د سپتامبر په 11 نیټه پیغامونه کارول ترڅو د تروریزم برید غبرګون د لوړ رژیم جذب مهال ویش چمتو کړي (Back, Küfner, and Egloff 2010) . ځکه چې څیړونکي د ډیرو پیغامونو درلودونکي وو، دوی د اندیښنو ته اړتیا نه درلوده چې آیا د هغو نمونو لیدل چې د ورځې په اوږدو کې غصب کیږي - د بیالبیلو توپیرونو لخوا تشریح کیدی شي. دلته ډیر معلومات موجود وو او بیلګې یې واضحې وې چې د احصایې ټول احصایوي ازموینې وړاندیز وکړ چې دا یو ریښتینی نمونه وه. مګر، دا احصایوي ازموینې د معلوماتو د رامینځته کیدو څخه ناپوه وو. په واقعیت کې، دا معلومه شوه چې ډیری نمونې د یو بوټ بکس وړ دی چې د ورځې په اوږدو کې ډیر غیر معنی پیغامونه یې رامنځته کړي. د دې یو بوټ څخه لرې کول په بشپړ ډول په کاغذ کې ځینې کلیدي موندنې له مینځه وړل شوې (Pury 2011; Back, Küfner, and Egloff 2011) . په ساده توګه، هغه څیړونکي چې د سیسټمیکې تېروتنې په اړه فکر نه کوي د لویوټیسټونو کارولو خطر سره مخ کیږي ترڅو د ناڅاپي مقدار دقیق اټکل، لکه د اتوماتیک بوټو لخوا تولید شوي بې ساري پیغامونو احساساتي پیغامونه ترلاسه کړي.

په پایله کې، لوی ډاټا راځي پخپله پای ته نه رسیږي، مګر دوی کولی شي د څیړنې وړ ځینې ډولونه لکه د ناڅاپي پیښو مطالعې، د حرفویت اټکل، او د کوچنیو توپیرونو کشفولو توان ولري. لوی ډاټاټینټ داسې ښکاري چې ځینې څیړونکي د دې لپاره چې د دوی ډاټا جوړ شوي څنګه ناڅاپي کوي، کوم چې دوی کولی شي د غیرمعمول مقدار مقدار مشخص اټکل ترلاسه کړي.