2.3.1.1 Big

Чоң топтому аяктай болуп саналат; алар өздөрү гана максат эмес.

Чоң маалыматтардын үч жакшы мүнөздөмөлөрүн биринчи көпчүлүк талкууланат: Бул чоң маалымат болуп саналат. Бул маалымат булактары үч түрдүү жол менен чоң болот: көп адамдар, бир адамга маалымат көп, же убакыттын өтүшү менен көп байкоолор. бир чоң танышуусуна ээ болгон сейрек окуяларды изилдеп, кичинекей айырмачылыктарды аныктоо, жана байкоо маалыматтардан себеп сметасын даярдоо, илимий-өлчөө гетерогендүүлүк айрым түрлөрүн берет. Ошондой эле калпак белгилүү бир түрүн алып көрүнөт.

белгилүү бир кичи топторуна үчүн баа берүү көлөмү өзгөчө пайдалуу боло турган биринчи нерсе орточо чегинен бара жатат. Мисалы, Гари Кинг, Атайга Пан жана Molly Робертс (2013) Кытайдын коомдук медиа билдирүүлөр өкмөт тарабынан жашырылган турганын ыктымалдыгы ченеди. өкмөт бир нече билдирүүлөрүн эмес, башка кино-, эмне үчүн өчүрүү абдан пайдалуу эмес, бул орточо ыктымалдыгы өзүнөн-өзү. Бирок, алардын танышуусуна 11 миллион билдирүүлөрүн киргизилген, анткени, Падыша жана кесиптештерим да 85 айрым категориялары боюнча билдирүүлөр үчүн канайдыр бир ыктымалдуулук үчүн баа өндүрүлгөн (мисалы, порнография, Тибет жана Пекинде Traffic). башка категорияларга билдирүүлөр үчүн текшерүү ыктымалдыгын салыштырып, алар мамлекеттик орундарга айрым түрлөрүн кино- кантип жана эмне жөнүндө көбүрөөк түшүнө алышкан. 11 мин билдирүүлөр (ордуна 11 миллион билдирүүлөр караганда) менен, алар ушул категорияга тиешелүү баа чыгара алмак эмес.

Экинчиден, көлөмү сейрек окуяларды окуп жатат үчүн өзгөчө пайдалуу. Мисалы, Goel жана кесиптештери (2015) Tweets ээледи ар кандай жолдорун изилдеп келген. кайра Tweets ири каскаддары өтө сейрек-бир себеби 3000-алардын талдоо үчүн көп каскад табуу үчүн бир миллиарддан ашуун Инсургент изилдөө үчүн зарыл.

Үчүнчүдөн, чоң топтому кичине айырмачылыктарды аныктоо үчүн мүмкүндүк. Чындыгында, ал эми өнөр жайында чоң маалыматтары боюнча басым көп бул кичине айырмачылыктар жөнүндө: ишенимдүү жарнама боюнча 1% жана 1,1% чыкылдатуу аркылуу курсу ортосундагы айырманы аныктоо кошумча киреше миллион АКШ долларын которууга болот. кээ бир илимий орнотуулар менен, мисалы, бир аз айырмачылыктар маанилүү, өзгөчө болушу мүмкүн (алар статистикалык маанилүү болсо да). Ал эми, кээ бир саясат орнотуулар менен, мисалы, бир аз айырмачылыктар маанилүү боло алат чогуу караганда. Мисалы, анда кыйла натыйжалуу кийлигишүү которулуп кошумча өмүрүн ми үнөмдөөчү аякташы мүмкүн, эки мамлекеттик саламаттык сактоо иш-аракеттер жана башка бир караганда бир аз көбүрөөк натыйжалуу бар болсо.

Акыры, көп маалыматтар топтому абдан байкоо маалыматтардан себеп баа берүү жөндөмдүүлүгүн жогорулатуу. чоң топтому түп-тамырынан, байкоо маалыматтардан себептик далил кабыл алуу туура келген жана байкоо тартып себеп доомат коюу изилдөөчүлөр иштеп чыккан табигый эксперимент-эки ыкмаларын маалыматтар да абдан чоң берилиштер пайда менен маселелерин жок да. Мен изилдөө стратегиясын айтып жатканда, мен бул бөлүмдө кийинчерээк кененирээк бул талапка каршы түшүндүрүү жана мисал болот.

окшойбуз жалпысынан туура пайдалануу жакшы менчиги болуп саналат да, бедел, адатта, кайсы бир түшүнүк ката алып жатканын байкадык. кандайдыр бир себептерден улам, бедел маалыматтар пайда болгон кантип четке изилдөөчүлөргө алып көрүнөт. Окшойбуз кокустук кылмышым тууралуу кабатыр болгон муктаждыкты азайтып жатат, ал эми иш жүзүндө дайыма каталары жөнүндө тынчсыздануунун зарылдыгы, мен төмөндө дагы баяндап беребиз каталарды түрдүү маалыматтар түзүлгөн жана чогултулган кандай кайдыгер пайда жогорулатат. кичинекей танышуусуна ичинде туш келди ката жана системалык ката да маанилүү болушу мүмкүн, бирок, чоң танышуусуна кокустук ката кетип, орточо жана системалык ката өкүмдар болот жатат. системалык ката жөнүндө эмес деп ойлойм, изилдөөчүлөр туура эмес нерсени так баа алуу үчүн өздөрүнүн чоң топтомун пайдалануу менен аяктайт; Алар так туура эмес болуп калат (McFarland and McFarland 2015) .