2.3.1 Big

Sekumpulan data gedhe sing liya pungkasan; lagi ora pungkasan ing awake dhewe.

Fitur sing paling akeh didhiskusi babagan sumber data gedhe yakuwi BIG. Akeh makalah, umpamane, diwiwiti kanthi ngrembug-lan kadhangkala bragging-babagan jumlah data sing dianalisis. Contone, koran sing diterbitake ing Science sinau pitunjuk tembung nggunakake korpus Buku Google klebu ing ngisor iki (Michel et al. 2011) :

"Korpus [kita] ngemot luwih saka 500 milyar tembung, ing basa Inggris (361 milyar), Perancis (45 milyar), Spanyol (45 milyar), Jerman (37 milyar), Cina (13 milyar), Rusia (35 milyar) (2 milyar). Karya paling tuwa diterbitake ing taun 1500-an. Dasawarsa awal diwakili mung sawetara buku saben taun, kalebu sawetara atus ewu tembung. Ing taun 1800, corpus tansaya nganti 98 yuta tembung saben taun; taun 1900, 1,8 milyar; lan 2000, 11 milyar. Korpus ora bisa diwaca dening manungsa. Yen sampeyan mung maca entri basa Inggris saka taun 2000 waé, kanthi cepet 200 tembung / min, tanpa gangguan kanggo pangan utawa turu, bakal entuk 80 taun. Urutan aksara 1000 luwih dawa tinimbang génom manungsa: Yen ditulis nganggo garis lurus, bakal tekan Bulan lan bali 10 kali. "

Ukuran data iki temtokake nyengsemake, lan kita kabeh duwe rejeki yen tim Google Buku wis ngeculake data kasebut marang publik (nyatane, sawetara aktivitas ing mburi bab iki nganggo data kasebut). Nanging, yen sampeyan ndeleng kaya iki sampeyan kudu takon: apa kabeh data tenan nindakake apa-apa? Apa padha bisa nindakake riset sing padha yen data bisa tekan Bulan lan bali mung sapisan? Apa yen data mung bisa tekan ing puncak Gunung Everest utawa puncak Menara Eiffel?

Ing kasus iki, riset kasebut, nyatane, duwe sawetara temuan sing mbutuhake corpus ageng tembung ing wektu sing suwe. Contone, siji-sijine perkara sing digoleki yaiku evolusi grammar, utamane owah-owahan ing tingkat konjugasi kriya ora normal. Wiwit karyane ora duwe langka, akeh data kudu ndeteksi owah-owahan saka wektu. Biasane, para panaliti nganggep ukuran sumber data gedhe minangka pungkasan- "katon sabaraha data sing bisa ngatasi"-luwih saka liya kanggo sawetara tujuan ilmiah sing luwih wigati.

Ing pengalaman saya, paneliten acara langka kasebut minangka salah siji saka telung telung ilmuan sing spesifik sing kasedhiya kanggo nggawe dataset gedhe. Kapindho yaiku sinau babagan heterogenitas, kaya sing bisa digambar dening studi dening Raj Chetty lan rekan (2014) mobilitas sosial ing Amerika Serikat. Ing jaman sadurungé, akeh peneliti wis sinau mobilitas sosial kanthi mbandhingake asil urip saka wong tuwa lan bocah-bocah. (Hout and DiPrete 2006) yaiku yen wong tuwa kasebut duwe anak, nanging kekuwatane hubungane beda-beda (Hout and DiPrete 2006) negara (Hout and DiPrete 2006) . Nanging luwih anyar, Chetty lan kanca-kanca bisa nggunakake cathetan pajak saka 40 yuta wong kanggo ngira-ngira heterogenitas ing mobilitas antar generasi ing wilayah ing Amerika Serikat (angka 2.1). Conto, sing bisa ditemtokake, menawa kemungkinan anak wis tekan paling dhuwur ing distribusi dhuwit nasional sing diwiwiti saka kulawarga ing kuintil dhasar kira-kira 13% ing San Jose, California, nanging mung watara 4% ing Charlotte, North Carolina. Yen sampeyan ndeleng angka 2.1 sajrone wayahe, sampeyan bisa mulai ngerteni apa mobilitas antar generasi luwih dhuwur ing sawetara panggonan tinimbang liyane. Chetty lan kanca-kanca wis padha karo pitakonan sing padha, lan dheweke nemokake yen wilayah mobilitas dhuwur duwe pemisahan kurang omah, kurang ketimpangan pendapatan, sekolah dhasar sing luwih apik, modal sosial luwih gedhe, lan kestabilan kulawarga sing luwih gedhe. Mesthine korelasi kasebut dhewe ora nuduhake yen faktor kasebut nimbulake mobilitas sing luwih dhuwur, nanging uga menehi saran mekanisme sing bisa digoleki ing karya luwih lanjut, yaiku apa sing wis ditindakake dening Chetty lan rekan ing karya sakteruse. Wigati babagan ukuran data sing pancene penting ing project iki. Yen Chetty lan kanca-kanca wis nggunakake cathetan pajak 40 ewu wong tinimbang 40 yuta, ora bakal bisa ngira heterogenitas regional lan ora bakal bisa nindakake riset maneh kanggo nyoba ngenali mekanisme sing nggawe variasi kasebut.

Gambar 2.1: Ngira-ngira kemungkinan anak bisa nyedhaki 20% saka distribusi income sing diwenehi wong tuwa ing ngisor 20% (Chetty et al. 2014). Perkiraan tingkat regional, sing nuduhake heterogenitas, kanthi alami mimpin kanggo pitakonan menarik lan penting sing ora muncul saka perkiraan tingkat nasional siji. Perkiraan tingkat regional iki bisa dimupangatake amarga partikel peneliti nggunakake sumber data gedhe: cathetan pajak 40 yuta wong. Digawé saka data sing kasedhiya ing http://www.equality-of-opportunity.org/.

Gambar 2.1: Ngira-ngira kemungkinan anak bisa nyedhaki 20% saka distribusi income sing diwenehi wong tuwa ing ngisor 20% (Chetty et al. 2014) . Perkiraan tingkat regional, sing nuduhake heterogenitas, kanthi alami mimpin kanggo pitakonan menarik lan penting sing ora muncul saka perkiraan tingkat nasional siji. Perkiraan tingkat regional iki bisa dimupangatake amarga partikel peneliti nggunakake sumber data gedhe: cathetan pajak 40 yuta wong. Digawé saka data sing kasedhiya ing http://www.equality-of-opportunity.org/.

Pungkasan, ing saliyane sinau acara langka lan sinau heterogenitas, dataset gedhe uga ndadekake para panaliti ndeteksi beda cilik. Ing kasunyatan, akeh fokus ing data amba ing industri bab iki beda cilik: kanthi andhap ndeteksi beda antarane 1% lan 1.1% klik-liwat tarif ing iklan bisa nerjemahake jutaan dolar ing ekstra revenue. Nanging, ing sawetara setelan ilmiah, beda-beda cilik kasebut ora penting tinimbang sing penting banget (Prentice and Miller 1992) . Nanging, ing sawetara setelan privasi, bisa dadi penting nalika viewed kanthi agregat. Contone, yen ana rong intervensi kesehatan masyarakat lan siji luwih efektif tinimbang liyane, banjur milih intervensi sing luwih efektif bisa nylametake ewonan jiwa tambahan.

Senadyan bigness umum minangka properti apik nalika digunakake kanthi bener, aku wis ngelingi sing bisa kadhangkala nyebabake kesalahan konseptual. Kanthi mengkono, bigness misale jek mimpin peneliti kanggo nglirwakake data kasebut. Nalika akeh sing ngurangi sing kudu kuwatir babagan kesalahan acak, bener-bener ningkatake kudu kuwatir babagan kesalahan sistematis, jenis kasalahan sing bakal dak jelasake ing ngisor iki sing muncul saka biase carane data digawe. Contone, ing proyek aku bakal nggambarake bab ing bab iki, para peneliti nggunakake pesen sing digawe tanggal 11 September 2001 kanggo mrodhuksi reaksi garis emosional resolusi dhuwur kanggo serangan teroris (Back, Küfner, and Egloff 2010) . Amarga peneliti wis akeh pesen, dheweke ora perlu kuwatir bab pola apa wae sing ditindakake-nambah nesu sajrone dina-bisa diterangake kanthi variasi acak. Ana data sing akeh banget lan pola kasebut dadi cetha yen kabeh tes statistik statistik ngandhakake yen iki pola nyata. Nanging, tes statistik iki ora ngerti kapan data diciptakake. Ing kasunyatane, akeh pola sing disebabake kanggo bot tunggal sing ngasilake pesen luwih akeh lan tanpa guna ing sadina-dina. Ngilangi bot iki rampung ngancurake sawetara temuan kunci ing kertas (Pury 2011; Back, Küfner, and Egloff 2011) . Prasaja, peneliti sing ora mikir babagan kesalahan sistematis ngadhepi risiko nggunakake data gedhe kanggo nemtokake jumlah sing ora penting, kayata isi emosional pesen tanpa arti sing diprodhuksi dening bot otomatis.

Ing kasimpulan, dataset gedhe ora pungkasan, nanging bisa mbantu sawetara jinis riset kalebu studi langka, perkiraan heterogenitas, lan deteksi beda cilik. Sangkalan gedhe uga katon minangka panaliti sawetara peneliti kanggo nglirwakake data sing digawé, sing bisa mimpin wong-wong mau supaya ngira kuantitas sing ora penting.