لا تبصره

په دې برخه کې طرحه شوې ده چې د يوه مرجع وکارول شي، ددې پرځای چې د یوه فلسفه ولوستل شي.

  • سريزه (2.1 برخه)

يو د په رعایت ده چې په دې فصل کې شامل نه دي ډول ده موز. لپاره په ډیجیټل ځایونو د سپټمر په برخه وويني Boellstorff et al. (2012) ، او په مختلط ډيجيټل او فزیکي ځایونو باندې د سپټمر په برخه وويني Lane (2016) .

  • Big معلومات (د 2.2 برخه)

کله چې تاسې د معلوماتو د repurposing، دوه رواني چلونه چې تاسو د ممکنه ستونزې چې کېدی شي چې تاسو سره مخ درک کي مرسته کولای شي شته. لومړی، تاسو کولی شئ هڅه کوي تر څو د خپل مشکل د مطلوب و ارز تصور او د بيس چې تاسو په کارولو سره پرتله چې. دوی څنګه ورته دی او څه توپیر سره لری؟ که تاسو نه ستاسو معلومات ځان راټول کړي، احتمال لري چې تر منځ د هغه څه چې تاسو غواړي او هغه څه چې تاسو لري توپير وي. خو، تاسو باید پرېکړه وکړي، که دا توپیرونه واړه او يا عمده.

دوهم، په یاد ولرئ چې چا جوړ او د ځینو عواملو له ستاسو معلومات راټول. تاسو بايد کوښښ وکړي چې د هغوی استدلال پوه شي. دا د سرچپه انجنيري ډول مرسته کولای شو چې تاسو په خپل ونیسي معلوماتو د احتمالي ستونزو د حل او د تعصب په ګوته کړي.

د "لوی معلوماتو د" واحد اجماع تعریف نه شته، خو زيات شمېر تعريفونه ښکاري، چې د د 3 VS تمرکز کوي: (د بيلګې په، حجم، نوعه، او ولاسټي Japec et al. (2015) ). بلکه د معلوماتو د ځانګړنو تمرکز په پرتله، زما تعریف باندې تمرکز کوي چې ولې د معلوماتو جوړ شو نور.

د لوی معلوماتو د وېشنيزه کې دننه د حکومت د اداري د معلوماتو زما شمولیت يو څه غير معمولي. نورو هغو چې دې صورت کې کړې، شامل دي Legewie (2015) ، Connelly et al. (2016) ، او Einav and Levin (2014) . د څېړنې لپاره د حکومت د اداري د معلوماتو د ارزښت په اړه زياتو معلوماتو لپاره وګورئ Card et al. (2010) ، Taskforce (2012) ، او Grusky, Smeeding, and Snipp (2015) .

د څخه د حکومت له احصائيوي سيستم، په ځانګړي ډول د امریکا د احصايي دفتر په دننه کې د اداري څيړنې يو محتویات وګورئ Jarmin and O'Hara (2016) . په Statistics سویډن د اداري اسنادو د څیړنې يو کتاب په اوږدوالي د درملنې، وګورئ Wallgren and Wallgren (2007) .

په فصل کې، زه په لنډه توګه يو دوديز سروې لکه د عمومي ټولنيز سروې (GSS) ته د ټولنیزو رسنیو د معلوماتو د منبع لکه د ټویټر په پرتله. د دودیزو سروې او د ټولنیزو رسنیو د معلوماتو تر منځ د يو بشپړ او احتياط په پرتله، وګورئ Schober et al. (2016) .

  • د لوی معلوماتو عام خصوصيات د (2.3 برخه)

د لوی معلومات دا 10 ځانګړتياوو په مختلفو طريقو له خوا د بېلابېلو لیکوالانو نوعه دي تشريح شوي دي. د ليکلو لپاره چې ددې موضوعګانو په اړه زما فکر تر اغېز لاندې ډول دي: Lazer et al. (2009) ، Groves (2011) ، Howison, Wiggins, and Crowston (2011) ، boyd and Crawford (2012) ، Taylor (2013) ، Mayer-Schönberger and Cukier (2013) ، Golder and Macy (2014) ، Ruths and Pfeffer (2014) ، Tufekci (2014) ، Sampson and Small (2015) ، Lewis (2015) ، Lazer (2015) ، Horton and Tambe (2015) ، Japec et al. (2015) ، او Goldstone and Lupyan (2016) .

په اوږدو کې دې فصل کې، ما له د ګڼيال همغږي نه، زه فکر کوم چې په نسبي ډول بې طرفه کارول. د ډيجيټل شونې بل مشهوره اصطلاح ده ډیجیټل footprints (Golder and Macy 2014) ، خو په توګه HAL Abelson، Ken Ledeen، او هري Lewis (2008) اشاره کوي، يو مناسب اصطلاح ده چې د ډيجيټل د ګوتو. کله چې تاسو footprints رامنځته کړي، نو تاسو د څه به پېښ شي او ستاسو footprints نه شي په عمومي توګه شخصا تاسو ته د بیلګو په خبر دي. د همدې لپاره له دیجیټال شونې سمه نه ده. په حقیقت کې، تاسو همغږي نه وځي هر وخت په اړه چې تاسو ډېر لږ پوهه لري. او، که څه هم دا شونې نه پر هغوی خپل نوم لري، دوی تل شي بېرته تاسو سره تړاو لري. په بل عبارت، دوی په څېر د ګوتو زيات دي: پټ او په شخصي توګه په نښه کړي.

Big

د ولې لوی راونغاړي، احصایوي ازموینې ستونزمن وروبښي زياتو معلوماتو لپاره وګورئ Lin, Lucas, and Shmueli (2013) او McFarland and McFarland (2015) . دا ستونزې بايد څېړونکو لامل شي چی په احصایوی اهمیت پرځای عملي اهميت باندې تمرکز وکړي.

تل-on

کله چې په پام کې تل-on معلومات، دا مهمه ده چې په پام کې چې آیا تاسو د وخت په تېرېدو د کره ورته خلکو سره پرتله او يا که تاسو د يو شمېر خلکو په کتابتون کې ډله پرتله؛ د بېلګې په توګه وګورئ، Diaz et al. (2016) .

غېر-

په غېر-اقدامات يو کلاسيک کتاب Webb et al. (1966) . په کتاب د مخه د نېټې مثالونه د ګڼياليزې عمر دي، خو هغوی تر اوسه هم څراغونه. د خلکو د ډله د څارنې د شتون له امله د هغوی د چلند د بدلون مثالونه وګورئ Penney (2016) او Brayne (2014) .

نابشپړ

د ریکارډ اړیکه زياتو معلوماتو لپاره وګورئ Dunn (1946) او Fellegi and Sunter (1969) (تاريخي) او Larsen and Winkler (2014) (عصري). ورته مراجعه لکه د معلوماتو deduplication، بېلګې په توګه تشخيص، نوم خوړونکی هم د نومونو لاندې په کمپيوټر ساينس چمتو شوی دی، دوه کشف، او دوه ریکارډ کشف (Elmagarmid, Ipeirotis, and Verykios 2007) . د محرمیت د ساتلو طریقې اړیکه چې د شخصی معلوماتو د تشخيص د لیږد ته اړتیا نه لري ثبت هم شته (Schnell 2013) . Facebook هم جوړ يو مخ لاړ شي چې د رايو ورکولو د چلند د خپلو فعاليتونو سره تړنې لري؛ دا وه چې یوه تجربه وکړه چې زه به ستاسو په نظر په 4 دکوچنیانولپاره د کیسو ووايي ارزونه ترسره (Bond et al. 2012; Jones et al. 2013) .

د اتبار زياتو معلوماتو لپاره وګورئ Shadish, Cook, and Campbell (2001) ، 3 څپرکی.

د الس رسي وړ

د د د هاتمیل لټون يادښت سلنهېټاکنو زياتو معلوماتو لپاره وګورئ Ohm (2010) . زه ملګرتیا سره د شرکتونو او په 4 دکوچنیانولپاره د حکومتونو په اړه مشوره وړاندې کوي کله چې زه تجربو تشریح. د لیکوالانو د شمیر په اړه څیړنه چې د الس رسي وړ معلومات تکیه اندېښنې، وګورئ Huberman (2012) او boyd and Crawford (2012) .

د پوهنتون څېړونکو ته د معلوماتو د لاس رسی پیدا کړي یو ښه لاره دا ده چې د یو intern يا ليدنه څېړونکي په يو شرکت کې کار وکړي. د پياوړي معلوماتو ته السرسی برسیره، دا پروسه به مرسته هم څېړونکي په اړه څه ډول د معلوماتو د جوړ شو، چې د ده لپاره د شننې مهم ډېر څه زده کړي.

غیر استازي

غیر استازيتوب لپاره د څېړونکو او حکومتونه چې غواړي د ټول نفوس په اړه دا څرګندونې یوه لویه ستونزه ده. دا د شرکتونو چې په معمولی ډول د خپلو کاروونکو تمرکز د اندېښنې وړ کم دی. د څنګه Statistics هالنډ د سوداګرۍ ستر معلومات غیر استازيتوب د موضوع په پام کې زياتو معلوماتو لپاره وګورئ Buelens et al. (2014) .

په 3 څپرکي کې، زه به په ډیر تفصیل نمونه او اټکل تشریح. حتی که معلومات غیر استازي، ځانګړو شرایطو سره سم، دوی وزن کولای شي چې د ښه اټکل توليدوي.

ګردله

سيستم ګردله ډېره ستونزمنه ده چې د بهر څخه وګورئ. خو د MovieLens پروژې (په 4 څپرکي کې بحث وشي) له 15 کلونو ډېر وخت لپاره د علمي څېړنو د ډلې له خوا پرمخ وړل شوي دي. نو ځکه، د ثبت شوي دي او ګډ په لاره کې چې د نظام د وخت په تیریدو سره وده او څرنګه په اړه معلومات، دغه اثر ښايي تحلیل (Harper and Konstan 2015) .

: د عالمانو د شمېر په ګردله په ټویټر تمرکز کړی دی Liu, Kliman-Silver, and Mislove (2014) او Tufekci (2014) .

Algorithmically confounded

زه د لومړي اورېدلي اصطلاح "algorithmically confounded" په یوه خبرې اترې له خوا Jon Kleinberg کارول. د شا performativity اصلي مفکوره ده، چې يو شمېر د ټولنیزو علومو نظريو "نه انجنونو کمرو" دي (Mackenzie 2008) . هغه دا چې دوی په حقیقت کې د نړۍ د بڼې په پرتله يوازې ونيسي دا.

چټل

دولتي احصایوي ادارو د معلوماتو پاکول، د کتاب احصایوي مالومات د ايډيټنګ غږ. De Waal, Puts, and Daas (2014) احصایوي مالومات د ايډيټنګ تخنیکونو لپاره د سروې د معلوماتو پراختيا تشریح او څيړو چې حده دوی د تطبيق وړ ستر معلوماتي سرچینو، او دي Puts, Daas, and Waal (2015) وړاندې د يوه عمومي لوستونکو ته د همدې جملې څخه یې ځينې.

د زده کړو په ټویټر، پر سپم تمرکز ځینې بېلګې Clark et al. (2016) او د Chu et al. (2012) . په پای کې، Subrahmanian et al. (2016) د DARPA ټویټر Bot ننګونه د پايلو تشريح کوي.

حساس

Ohm (2015) د حساسو معلوماتو د نظر کتنه مخکې د څيړنې او د څو عامل ازموینه کوي. د څلور عوامل هغه وړاندیز دي: د زيان احتمال؛ د زيان احتمال؛ د محرم د اړیکو شتون؛ او آیا د خطر majoritarian اندېښنې منعکسوي.

  • شمېرنه شیان (2.4.1 برخه)

په نیویارک کې ټکسي Farber د څېړنې له له خوا د یوه مخکې د مطالعې پر بنسټ وه Camerer et al. (1997) چې د کاغذ سفر پاڼې د کاغذ د فورمو له خوا د موټر چلوونکي ته د سفر د پيل وخت ثبت لپاره، د وخت د پای، او کرايه دریو مختلفو آسانتیاوو په نمونې کارول. دا مخکې څېړنه ښيي، چې موټر چلوونکي داسې برېښېده چې هدف عاید وي: دوی په ورځو کې چې خپل معاشونه په ډېره لوړه وه، کار لږ دی.

Kossinets and Watts (2009) و په ټولنیزو شبکو د homophily منشاء تمرکز درلود. وګورئ Wimmer and Lewis (2010) لپاره د ورته ستونزه ده چې له فېسبوک د معلوماتو کاروي بله چلن.

په ورپسې د کار، پاچا او همکارانو لا آن لائن د سانسور په چين کې وسپړل (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . لپاره په چين کې د انلاین سانسور د اندازه کولو سره تړلي روش، وګورئ Bamman, O'Connor, and Smith (2012) . لپاره په احصایوی ميتودونو په څېر د يو په کارول زيات King, Pan, and Roberts (2013) د 11 ميليونه ليکنې د احساساتو اټکل، وګورئ Hopkins and King (2010) . د نظارت د زده کړې زياتو معلوماتو لپاره وګورئ James et al. (2013) (لږ تخنیکي) او Hastie, Tibshirani, and Friedman (2009) (پاتې تخنیکي).

  • د حالتو په (2.4.2 برخه)

Forecasting ده د صنعتي معلوماتو د ساينس يوه لويه برخه (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . د وړاندوینې يو ډول چې په عمومی توګه د ټولنیز څیړونکي ترسره دي د نفوس وړاندوینه کول، د مثال په توګه Raftery et al. (2012) .

د ګوګل د انفلونزا جریانونه د لومړي پروژه لټون د معلوماتو څخه د انفلونزا د خپریدو nowcast نه وه. په حقیقت کې، په متحده ایالاتو کې څېړونکو (Polgreen et al. 2008; Ginsberg et al. 2009) او د سویډن (Hulth, Rydevik, and Linde 2009) دا موندلې چې د ځانګړو لټون اصطلاحات (د بيلګې په توګه، "د انفلونزا") د عامې روغتيا د څارنې د ملي وړاندوينه مخکې له دې چې د معلوماتو خوشې شو. وروسته څو، څو په نورو پروژو هم هڅه وکړه، ترڅو لپاره د ناروغیو د نظار د کشف ډیجیټل مصرفه معلومات وکاروي، وګورئ Althouse et al. (2015) لپاره د يوه کتنه.

د ډيجيټل مصرفه معلوماتو په کارولو سره وړاندوینه روغتيا د پایلو تر څنګ، هلته هم د ټوېټر د معلوماتو په کارولو سره وړاندوینه د ټاکنو د پایلو د کار يوه ستره اندازه شوي دي. د کتنې وګورئ Gayo-Avello (2011) ، Gayo-Avello (2013) ، Jungherr (2015) (Ch. 7)، او Huberty (2015) .

د انفلونزا د خپریدو وړاند وينه کوي، او ټویټر معلوماتو په کارولو سره وړاندوینه د ټاکنو د يو شمېر د ډيجيټل مصرفه ډول د کارولو وړاندوینه شمېر په نړۍ کې سيالۍ ډول د دواړو مثالونو لټون معلوماتو په کارولو سره. هلته د زده کړو چې دا عمومي جوړښت لري ډیر شمیر. 2.5 جدول کې یو څو نور مثالونه شامل دي.

2.5 جدول: د زده کړو قسمي لست ځينې ډيجيټل مصرفه وکاروي وړاندوینه ځينې سيالۍ.
Digital مصرفه د تمی وړ (ملف)
ټویټر په امریکا کې د فلمونو د صندوق دفتر د عوایدو Asur and Huberman (2010)
د لټون يادښتونه په امریکا کې د فلمونه، موسيقي، کتابونه، او ويډيويي لوبو خرڅلاو Goel et al. (2010)
ټویټر بندول جونز صنعتي اوسط (د امریکا د ونډو د بازار) Bollen, Mao, and Zeng (2011)
  • Approximating تجربو (2.4.3 برخه)

د ژورنال PS د سياسي علومو په لوی معلومات، د سببونو د پرتلي، او د رسمي تیوری یو سمپوزیم درلودل او Clark and Golder (2015) هر ونډه لنډیز وړاندې کوي. د د د د امریکا د متحده ایالاتو د علومو ملي اکاډمۍ ژورنال پروسو په اتفاقی پرتلي او ستر دداتا یوه سمپوزیم درلودل او Shiffrin (2016) د هر ونډه لنډیز وړاندې کوي.

د طبیعي تجربو له پلوه، Dunning (2012) یوه غوره کتاب په اوږدوالي د درملنې وړاندې کوي. د يو طبيعي تجربه د ویتنام د پچې مسوده د کارولو زياتو معلوماتو لپاره وګورئ Berinsky and Chatfield (2015) . د ماشيني زده کړې طريقی چې هڅه کوي په اتوماتيک ډول د طبیعي تجربو د سترو سرچينو د معلوماتو دننه کشف، وګورئ Jensen et al. (2008) او Sharma, Hofman, and Watts (2015) .

د سمون له مخې، د يوه خوشبينه کتنه، وګورئ Stuart (2010) ، او د يو بدبينه کتنه وګورئ Sekhon (2009) . لپاره پر یو ښاخ ډول په توګه سارو زياتو معلوماتو لپاره وګورئ Ho et al. (2007) . د کتابونو، چې د سمون خوړونکی ښه علاج برابر کړي، وګورئ Rosenbaum (2002) ، Rosenbaum (2009) ، Morgan and Winship (2014) ، او Imbens and Rubin (2015) .