2.3.1 Böyük

Bu tərcümə kompüter ilə yaradılmışdır. ×

2.3.1 Böyük

Böyük Kümeleri sona bir vasitədir; onlar özləri bir son deyil.

Böyük məlumat mənbələrinin ən geniş müzakirə olunan xüsusiyyəti BIGdir. Bir çox sənədlər, məsələn, müzakirə etmək və bəzən fədakarlıqla başlayır - nə qədər məlumatlar təhlil edirlər. Məsələn, Elmdə Google Kitablar korpusunda söz-istifadə istiqamətləri öyrənən bir məqalə aşağıdakılardan ibarət idi (Michel et al. 2011) :

"[Bizim] korpusumuzda 500 milyarddan çox söz, İngilis dili (361 milyard), Fransız (45 milyard), İspan (45 milyard), Alman (37 milyard), Çin (13 milyard), Rus (35 milyard) (2 milyard). Ən qədim əsərlər 1500-cü illərdə nəşr olunmuşdur. Erkən onilliklər bir neçə yüz min sözdən ibarət olan bir neçə kitab ilə təmsil olunur. 1800-cü ildə korpus ildə 98 milyon sözə qədər artır; 1900-cü ilə, 1,8 milyard; və 2000-ci ilə 11 milyard. Corpus bir insan tərəfindən oxunmur. Yalnız 2000-ci ildən yalnız ingilis dilində girişləri oxumağa çalışarsanız, 200 sözlə / dəqiqliklə kifayət qədər sürətlə, yemək və ya yuxu üçün kəsilmədən, 80 il davam edəcək. Məktubların ardıcıllığı insan genomundan 1000 dəfə daha uzundur: Düz bir xəttdə yazarsanız, aya 10 dəfə çatacaq ".

Bu məlumatların miqyası şübhəsiz ki, çox təəssüf doğurur və biz Google Kitablar qrupunun bu məlumatları ictimaiyyətə açıqladığına şübhə edirik (əslində, bu fəslin sonunda bəzi fəaliyyətlər bu məlumatlardan istifadə edir). Ancaq bu cür bir şey gördüyünüz zaman soruşmaq lazımdır ki: bütün məlumatlar həqiqətən bir şeydir? Məlumatlar Ay və ya bir dəfə təkrar çatdıqda eyni araşdırma edə bilərlərmi? Məlumatlar yalnız Everest dağının və ya Eyfel qülləsinin yuxarı tərəfinə keçə bilərsə?

Bu vəziyyətdə, araşdırmalar əslində uzun müddət ərzində sözlərin böyük bir kompleksi tələb edən bəzi tapıntılara sahibdir. Məsələn, araşdırdıqları bir şey qrammatikanın təkamülüdür, xüsusən düzensiz verb konjugasiya dərəcəsi dəyişir. Bəzi qeyri-müntəzəm fe'llər olduqca nadir olduğundan, böyük miqdarda məlumatlar zamanla dəyişiklikləri aşkar etməlidir. Çox tez-tez tədqiqatçılar, böyük məlumat mənbəyinin ölçüsünü son nəticələr kimi qiymətləndirirlər - "daha çox məlumatın mənimsənəcəyinə baxın" - daha vacib bir elmi məqsəd üçün bir vasitədir.

Təcrübəmdə nadir hadisələrin tədqiqi böyük məlumatların imkan verən üç xüsusi elmi nəticələrindən biridir. İkincisi, heterojenliyin öyrənilməsi, Raj Chetty və həmkarlarının (2014) Amerika Birləşmiş Ştatlarının sosial hərəkətliliyinə dair bir araşdırma ilə təsvir edilə bilər. Keçmişdə bir çox tədqiqatçı valideynlərin və uşaqların həyat nəticələrini müqayisə edərək sosial hərəkətliliyi öyrənmişdir. Bu ədəbiyyatdan ardıcıl bir nəticə, üstünlük verilən valideynlərin üstünlüklü uşaqlara sahib olmağı tələb edir, lakin bu münasibətlərin gücü zamanla və ölkələr arasında dəyişir (Hout and DiPrete 2006) . Bununla yanaşı, Chetty və həmkarları Birləşmiş Ştatlarda regionlar arasında soyuq mühitin hərəkətlilik qabiliyyətini təxmin etmək üçün 40 milyon nəfərdən vergi uçotunu istifadə edə bildi (şək. 2.1). Onlar, misal üçün, alt kvintildə bir ailənin başlanğıcında milli gəlir bölüşdürülməsinin ən yuxarı yaş qrupuna çatması ehtimalı Kaliforniya ştatının San-Xose şəhərində təxminən 13% -ni təşkil edir, lakin Şotlandiyanın Charlotte şəhərində təxminən 4% -ni təşkil edir. Bir an üçün 2.1 rəqəminə baxdığınız zaman, nəsillərin nəsillər arası hərəkətliliyi başqalarına nisbətən bəzi yerlərdə nə qədər yüksək olduğuna təəccüblənməyə başlaya bilərsiniz. Chetty və həmkarları eyni sualları var idi və onlar yüksək mobillik sahələrində daha az yaşayış segregasiyası, daha az gəlir mənsubiyyəti, daha yaxşı ibtidai məktəblər, daha böyük sosial kapital və daha çox ailə sabitliyi var. Əlbəttə ki, bu korrelyasiya təkcə bu amillərin daha yüksək hərəkətliliyinə səbəb olduğunu göstərmir, lakin daha çox işdə tədqiq edilə biləcək mümkün mexanizmlər təklif edir, bu da Chetty və iş yoldaşlarının sonrakı işlərdə olduğu kimi. Bu layihədə məlumatın ölçüsü həqiqətən vacib olduğuna diqqət yetirin. Chetty və həmkarları 40 milyondan çox 40 min nəfər vergi rekordunu istifadə etsələr, regional heterojenliyi qiymətləndirə bilməyəcəklər və bu dəyişikliyi yaradan mexanizmləri müəyyənləşdirməyə çalışmayacaqlar.

Şəkil 2.1: Uşağın valideynlərə verdiyi gəlirlərin ən yüksək 20% səviyyəsinə çatma şansının qiymətləndirilməsi 20% səviyyəsində (Chetty et al. 2014) . Heterojenliyi göstərən regional səviyyəli təxminlər, təbii olaraq bir milli səviyyəli qiymətləndirmədən yaranmayan maraqlı və vacib suallara gətirib çıxarır. Tədqiqatçılar böyük bir məlumat mənbəyi: 40 milyon insanın vergi uçotunu istifadə etdikləri üçün, bu regional səviyyədə qiymətləndirmələr mümkün oldu. Http://www.equality-of-opportunity.org/ ünvanından əldə edilən məlumatlardan yaradılıb.

Nəhayət, nadir hadisələrin öyrənilməsi və heterojenliyin öyrənilməsi ilə yanaşı, böyük məlumatlar tədqiqatçılara kiçik fərqləri aşkar etməyə imkan verir. Əslində, sənayedə böyük məlumatlara diqqət yetirmək çox böyük bir fərqdir: bir reklamda 1% və 1,1% klik dərəcələri arasındakı fərqləri etibarlı şəkildə aşkar edərək əlavə gəlirlərdə milyonlarla dollara çevrilə bilər. Bəzi elmi quruluşlarda isə bu cür kiçik fərqlər statistik əhəmiyyətə malik olsa da, xüsusilə vacib ola bilməz (Prentice and Miller 1992) . Lakin, bəzi siyasət parametrlərində ümumi olaraq baxılarkən əhəmiyyətli ola bilərlər. Məsələn, iki ictimai səhiyyə müdaxiləsi və birinin digərinə nisbətən bir qədər daha təsirli olması halında, daha effektiv bir müdaxiləni seçmək, minlərlə əlavə həyat qurtarmaqla nəticələnə bilər.

Bigness düzgün istifadə edərkən ümumiyyətlə yaxşı bir xüsusiyyət olsa da, bəzən konseptual bir səhv gətirə biləcəyini fərq etdim. Bəzi səbəblərə görə, tədqiqatçılar məlumatların necə yaradıldığını görməməyə səbəb olurlar. Bigness təsadüfi səhvdən narahat olmaq ehtiyacını azaldıb, sistematik səhvlər barədə məlumat vermək üçün ehtiyacları artırır , məlumatların necə yaradıldığına dair fikirlərdən aşağıda təsvir edəcəyəm ki, səhvlərin növləri. Məsələn, bu fəsildə daha sonra təsvir edəcəyəm bir proyektdə, tədqiqatçılar 11 sentyabr 2001-ci il tarixində terror hücumuna reaksiya verən yüksək qətnamə emosional qrafiki hazırlamaq üçün istifadə etdilər (Back, Küfner, and Egloff 2010) . Tədqiqatçıların çox sayda mesajı olduğu üçün onlar müşahidə etdikləri nümunələr - günün gedişində hiddətin artması - təsadüfi dəyişikliklərlə izah edilə biləcəkləri barədə narahat olmaya bilmirdilər. Çox məlumatlar var idi və nümunə aydın oldu ki, bütün statistik statistik testlər bunun real bir nümunə olduğunu göstərdi. Lakin, bu statistik testlər məlumatların necə yaradıldığından xəbərsiz idi. Əslində, nümunələrin bir çoxu gün ərzində daha çox mənasız mesajlar yaradan bir bota aid idi. Bu botun çıxarılması kağızdakı əsas nəticələrdən bir qismini (Pury 2011; Back, Küfner, and Egloff 2011) tamamilə məhv etdi. Sadəcə sadəcə, sistematik səhv barədə düşünməyən tədqiqatçılar avtomatlaşdırılmış bir bot tərəfindən istehsal edilən mənasız mesajların emosional məzmunu kimi əhəmiyyətsiz miqdarda dəqiq bir qiymətləndirmə əldə etmək üçün onların böyük məlumatlarını istifadə etmək riski ilə üzləşirlər.

Nəticədə, böyük məlumatlar özlərində bir sonluq deyildir, lakin nadir hadisələrin öyrənilməsi, heterojenliyin qiymətləndirilməsi və kiçik fərqlərin aşkar edilməsi daxil olmaqla müəyyən tədqiqatlara imkan verə bilər. Böyük məlumat qrupları da bəzi tədqiqatçılara məlumatların necə yaradıldığını görməməzlik gətirməyə səbəb olur və bu, onları əhəmiyyətsiz miqdarda dəqiq bir qiymətləndirməyə gətirib çıxara bilər.