2.3.1.1 Big

Маљмўи калон як воситаи ба охир; онҳо хотима дар худ нест.

Дар аввал аз се хусусиятҳои хуби маълумоти калон аст, аз ҳама муҳокима: ин маълумот калон доранд. Ин манбаи маълумот метавонад бузург дар се роҳҳои гуногун: бисёре аз мардум, қуръа маълумот як шахс, ё мушоњидањои зиёде бо мурури замон. Доштани мажм калон имкон медиҳад, ки баъзе намудҳои мушаххаси аз нигоњи илмӣ-ченкунӣ, омӯзиши воқеаҳои нодир, ошкор кардани фарқиятҳои хурд ва қабули ҳисобҳои алоќаи аз маълумоти мушоњидавї. Он ҳамчунин ба назар мерасад боиси як навъи махсуси sloppiness.

Аввалин чизе, ки ба андозаи махсусан фоиданок аст, аст, берун аз миёна гузаштан ба арзёбии барои зергурӯҳҳои мушаххас. Барои мисол, Гари Подшоҳи, Ҷенифер пантуркист ва Молли Робертс (2013) чен кардани эњтимолияти Заметки ВАО иҷтимоӣ дар Чин бошад аз тарафи давлат сензура. Бо худи ин эҳтимоли миёнаи ҳазф аст, ки барои фаҳмидани, ки чаро ҳукумат censors баъзе Заметки, вале ба дигарон не хеле муфид аст. Аммо, чунки мажм онњо дохил 11 миллион записи, Подшоҳ ва ҳамкорони инчунин сметаи барои эњтимолияти сензура барои Заметки оид ба 85 категорияҳои алоҳида (масалан, порнография, Тибет, ва ҳаракат дар Пекин) истеҳсол. Бо муқоисаи эњтимолияти сензура барои Заметки дар категорияҳои гуногун, ки онҳо фаҳмида метавонанд, бештар дар бораи чӣ тавр ва чаро ҳукумат censors баъзе намудҳои Заметки буданд. Бо 11 ҳазор записи (на зиёда аз 11 миллион Заметки), чунин намекарданд доранд қодир ба истеҳсоли ин ҳисобҳо-гурӯҳ мушаххас шудааст.

Дуюм, андозаи махсусан барои омӯзиши воқеаҳои нодир муфид аст. Барои мисол, Goel ва ҳамкорони (2015) мехост, ба омӯзиши роҳҳои гуногун, ки твит метавонанд вирусї рафта. Азбаски силсиланерӯгоҳҳо зиёди нав твит хеле кам-дар бораи яке дар 3000-онҳо бояд ба омӯзиши зиёда аз як миллиард твит ба хотири пайдо кардани силсиланерӯгоҳҳо калон кофӣ барои таҳлили худ.

Сеюм, маљмўи калон муњаќќиќон имконият барои ошкор кардани фарқиятҳои хурд. Дар асл, бисёре аз таваҷҷӯҳ ба маълумоти калон дар саноат аст, дар бораи ин фарқиятҳои хурд: боэътимод пайдокунии фарқи байни суръати 1% ва 1,1% ангуштзании тавассути оид ба шумои метавонад ба миллионҳо доллар даромади иловагӣ тарҷума кунед. Дар баъзе танзимоти илмӣ, ба монанди фарқиятҳои хурд нест, то аз ҷумла муҳим мебошад (ҳатто агар онҳо аз рӯи омор муҳим мебошанд). Лекин, дар баъзе танзимоти сиёсат, ба монанди фарқиятҳои хурд метавонад муҳим, вақте ки дар маҷмӯъ баррасї гардад. Барои мисол, агар вуҷуд Ду барномаи амалии тандурустии ҷамъиятӣ ва яке аст, каме бештар самаранок аз дигар, пас гузариш ба мудохилаи бештар муассир метавонад то хотима наҷот ҳазорҳо ҷони иловагӣ.

Ниҳоят, маҷмӯи маълумоти калон хеле имконияти моро ба арзёбии алоќаи аз маълумоти мушоњидавї зиёд. Ҳарчанд маљмўи калон кор куллї мушкилоти бо қабули inference алоќаи аз маълумоти мушоњидавї, таин ва таҷрибаҳо-ду табиӣ техника, ки муҳаққиқон барои қабули даъвоҳои алоќаи аз мушоњидавї таҳия кардаанд, маълумот ҳам хеле аз маљмўи калон манфиат тағйир намедиҳад. Ман мефаҳмонанд ва нишон медиҳанд ин даъвои муфассал бештар баъдтар дар ин боб, вақте ки ман стратегияҳои тадқиқотӣ тасвир.

Ҳарчанд bigness умуман молу хуб, вақте ки дуруст истифода бурда, ман пайхас кардам, ки bigness маъмулан ба хато консептуалии мерасонад. Зеро баъзе сабабҳо, bigness назар мерасад, боиси тадқиқотчиён рад, ки чӣ тавр маълумоти тавлид шуд. Дар ҳоле ки bigness мекунад кам кардани зарурати ба ташвиш дар бораи хатои тасодуфӣ, он дар асл меафзояд, зарурати ба ташвиш дар бораи хатогиҳо муназзам, ба намуди хатоҳои, ки ман бештар дар зер, ки дар тасвир аз Тамоюлҳои меоянд, дар чӣ гуна маълумот таъсис дода шудаанд ва ситонида мешавад. Дар мажм хурд, ҳам хатои тасодуфӣ ва гумроҳӣ системавї буда метавонад муҳим, балки дар гумроҳӣ тасодуфӣ мажм калон мумкин аст дур миёна ва гумроҳӣ мунтазами ҳукмфармост. Тадқиқотчиён, ки дар бораи гумроҳии системавї то хотима хоҳад истифодаи маљмўи калони худро ба даст арзёбии дақиқи чизи нодуруст фикр намекунам; онҳо хоҳад аниќ носаҳеҳ (McFarland and McFarland 2015) .