2.3.1.1 Big

Böyük Kümeleri sona bir vasitədir; onlar özləri bir son deyil.

Böyük data üç yaxşı xüsusiyyətləri ilk ən çox müzakirə olunur: bu böyük məlumatlar. bir çox insanlar, adam başına məlumat çox, və ya vaxt çox müşahidələr: Bu məlumat mənbələri üç müxtəlif yollarla böyük ola bilər. böyük verilənlər bazasının olan nadir hadisələr oxuyan kiçik fərqlər aşkar və müşahidə məlumatlar causal hesablamalarına edilməsi, elmi-tədqiqat ölçü heterogen bəzi xüsusi növ imkan verir. O, həmçinin sloppiness xüsusi bir növü səbəb görünür.

ölçüsü xüsusilə faydalı olan ilk şey xüsusi alt hesablanması etmək üçün orta kənarda hərəkət edir. Məsələn, Gary King, Jennifer Pan, və Molly Roberts (2013) Çin sosial media ismarıc hökumət tərəfindən senzura ki ehtimalını qiymətləndirilir. Özü silinməsi bu orta ehtimalı hökumət bəzi ismarışları deyil başqaları senzorları niyə anlamaq üçün çox faydalı deyil. Onların verilənlər bazasının 11 milyon ismarıclarını daxil çünki Lakin, King və həmkarları da 85 ayrı kateqoriyada (Pekin məsələn, pornoqrafiya, Tibet və Traffic) üzrə ismarıc senzura ehtimalı hesablamalarına istehsal. müxtəlif kateqoriyalara ismarıc senzura ehtimalı müqayisə, onlar hökumət ismarışları müəyyən növ senzorları necə və nə haqqında daha ətraflı anlamaq edə bildik. 11 min ismarıc (daha çox 11 milyon ismarıc) ilə, bu kateqoriya xüsusi hesablamalarına istehsal edə olmazdı.

İkincisi, ölçüsü nadir hadisələrin öyrənilməsi üçün xüsusilə faydalıdır. Məsələn, Goel və həmkarları (2015) tweets virus getmək bilər ki, müxtəlif yollarla öyrənmək istədi. yenidən tweets böyük cascades çox nadir-haqqında bir olan Çünki 3000-onların təhlili üçün kifayət qədər böyük cascades tapmaq üçün çox bir milyard tweets öyrənmək lazımdır.

Üçüncüsü, böyük Kümeleri kiçik fərqlər aşkar etmək üçün tədqiqatçılar imkan verir. Əslində, sənaye böyük data diqqət çox bu kiçik fərqlər haqqında: etibarlı əlavə gəlir milyonlarla dollar tərcümə edə bilərsiniz bir reklam 1% və 1,1% klik dərəcələri arasında fərq aşkar. bəzi elmi ayarları, kiçik fərqlər (onlar statistik əhəmiyyətli olsa da) əhəmiyyətli xüsusi ola bilər. məcmu baxıldığı zaman, bəzi siyasəti ayarları, kiçik fərqlər əhəmiyyətli ola bilər. Məsələn, iki ictimai səhiyyə müdaxilələr və bir sonra əlavə yaşayır minlərlə qənaət ola bilər daha səmərəli müdaxilə keçid, bir az daha effektiv başqa orada əgər olunur.

Nəhayət, böyük data dəstləri çox müşahidə məlumatlar səbəb təxminlər etmək üçün qabiliyyəti artırır. böyük Kümeleri əsaslı, müşahidə məlumatlar səbəb nəticə çıxarma uyğun və təbii təcrübələr iki üsulları tədqiqatçılar müşahidə olan səbəb iddiaları edilməsi üçün inkişaf etmiş data-də çox böyük Kümeleri faydalana problemləri dəyişiklik yoxdur, baxmayaraq ki. Mən izah və mən tədqiqat strategiyaları təsvir bu fəsildə sonra daha ətraflı bu iddianı göstərmək lazımdır.

böyüklük ümumiyyətlə düzgün istifadə yaxşı əmlak olsa da, mən böyüklük adətən konseptual səhv gətirib çıxarır ki, fark etdik. Nədənsə, böyüklük öz data istehsal edilmişdir necə ignore tədqiqatçılar səbəb görünür. Böyüklük təsadüfi səhv narahat ehtiyac azaltmaq baxmayaraq, bu, həqiqətən sistemli səhvlər narahat ehtiyac edirəm ki, aşağıda daha təsvir edəcəyik səhvlərin növ data yaradılmış və toplanmış necə fikirlərinə yarana artırır. kiçik verilənlər bazasının, təsadüfi səhv və sistemli səhv, həm də əhəmiyyətli ola bilər, ancaq böyük bir verilənlər bazasının təsadüfi səhv üz orta və sistemli səhv üstünlük ola bilər. yanlış şey dəqiq smeta almaq üçün onların böyük Kümeleri istifadə sona çatacaq sistemli səhv haqqında düşünmürəm Tədqiqatçılar; onlar dəqiq qeyri-dəqiq olacaq (McFarland and McFarland 2015) .