2.3.1 Big

Malaking mga dataset ay isang paraan sa isang dulo; ang mga ito ay hindi isang dulo sa kanilang mga sarili.

Ang pinakalawak na talakayan na tampok ng malaking pinagkukunan ng data ay ang mga ito ay MALAKING. Maraming mga papeles, halimbawa, magsimula sa pamamagitan ng pagtalakay-at kung minsan ay naghambog-tungkol sa kung gaano karaming data ang kanilang pinag-aralan. Halimbawa, ang isang papel na inilathala sa Science na nag-aaral ng mga uso sa paggamit ng salita sa Google Books corpus ay kasama ang sumusunod (Michel et al. 2011) :

Ang [ating] corpus ay naglalaman ng higit sa 500 bilyon na salita, sa Ingles (361 bilyon), Pranses (45 bilyon), Espanyol (45 bilyon), Aleman (37 bilyon), Tsino (13 bilyon), Russian (35 bilyon) (2 bilyon). Ang pinakalumang mga gawa ay inilathala sa 1500s. Ang unang mga dekada ay kinakatawan ng ilang mga libro bawat taon, na binubuo ng ilang daang libong mga salita. Noong 1800, ang corpus ay lumalaki sa 98 milyong salita bawat taon; ng 1900, 1.8 bilyon; at noong 2000, 11 bilyon. Ang corpus ay hindi mababasa ng isang tao. Kung sinubukan mong basahin lamang ang mga entry sa wikang Ingles mula sa taong 2000 lamang, sa makatuwirang bilis ng 200 salita / min, nang walang pagkaantala para sa pagkain o pagtulog, mangangailangan ng 80 taon. Ang pagkakasunud-sunod ng mga titik ay 1000 beses na mas mahaba kaysa sa genome ng tao: Kung isinulat mo ito sa isang tuwid na linya, maaabot nito ang Buwan at pabalik ng 10 ulit. "

Ang laki ng data na ito ay walang alinlangan na kahanga-hanga, at lahat kami ay masuwerte na inilabas ng koponan ng Google Books ang mga data na ito sa publiko (sa katunayan, ang ilan sa mga aktibidad sa dulo ng kabanatang ito ay gumagamit ng data na ito). Ngunit, kapag nakita mo ang isang bagay na tulad nito dapat mong itanong: ay ang lahat ng datos na iyon ay talagang gumagawa ng anumang bagay? Maaari ba nilang gawin ang parehong pananaliksik kung ang data ay maaaring maabot sa Buwan at bumalik nang isang beses lamang? Paano kung maabot lamang ang data sa tuktok ng Mount Everest o sa tuktok ng Eiffel Tower?

Sa kasong ito, ang kanilang pananaliksik ay, sa katunayan, ay may ilang mga natuklasan na nangangailangan ng isang malaking corpus ng mga salita sa loob ng mahabang panahon. Halimbawa, ang isang bagay na kanilang natutuklasan ay ang ebolusyon ng balarila, lalo na ang mga pagbabago sa antas ng hindi pantay na pandiwa na conjugation. Dahil ang ilang mga iregular na pandiwa ay medyo bihira, ang isang malaking halaga ng data ay kailangan upang makita ang mga pagbabago sa paglipas ng panahon. Gayunpaman, gayunman, ang mga mananaliksik ay tila tinatrato ang sukat ng malaking pinagmulan ng data bilang isang pagtatapos- "tingnan kung gaano ang data na maaari kong mag-usigin" -nakakatulad sa isang paraan sa ilang mas mahalagang pang-agham na layunin.

Sa aking karanasan, ang pag-aaral ng mga bihirang kaganapan ay isa sa tatlong partikular na pang-agham na dulo na ang malalaking dataset ay may posibilidad na paganahin. Ang pangalawa ay ang pag-aaral ng heterogeneity, tulad ng maaaring ilarawan sa pamamagitan ng isang pag-aaral ni Raj Chetty at mga kasamahan (2014) sa panlipunang kadaliang kumilos sa Estados Unidos. Sa nakaraan, maraming mga mananaliksik ang nag-aral ng social mobility sa pamamagitan ng paghahambing ng mga resulta ng buhay ng mga magulang at mga anak. Ang isang pare-parehong paghahanap mula sa panitikan na ito ay ang mga bihasang magulang ay may posibilidad na magkaroon ng mga anak na may pakinabang, ngunit ang lakas ng relasyon na ito ay nag-iiba sa paglipas ng panahon at sa buong bansa (Hout and DiPrete 2006) . Gayunpaman, kamakailan lamang, ginamit ni Chetty at mga kasamahan ang mga talaan ng buwis mula sa 40 milyong tao upang tantiyahin ang heterogeneity sa intergenerational na kadaliang kumilos sa mga rehiyon sa Estados Unidos (figure 2.1). Halimbawa, natagpuan nila na ang posibilidad na ang isang bata ay umabot sa pinakamataas na sukat ng pamamahagi ng pambansang kita mula sa isang pamilya sa ibaba ng quintile ay humigit-kumulang 13% sa San Jose, California, ngunit halos 4% sa Charlotte, North Carolina. Kung titingnan mo ang figure 2.1 sa isang sandali, maaari kang magsimulang magtaka kung bakit ang intergenerational na kadaliang kumilos ay mas mataas sa ilang mga lugar kaysa sa iba. Si Chetty at mga katrabaho ay may eksaktong kaparehong tanong, at nalaman nila na ang mga lugar na may mataas na kadaliang lugar ay may mas mababang tirahan ng segregation, mas kaunting kita sa kita, mas mahusay na mga pangunahing paaralan, mas malaking kapital ng lipunan, at higit na katatagan ng pamilya. Siyempre, ang mga ugnayan na nag-iisa ay hindi nagpapakita na ang mga kadahilanang ito ay nagiging sanhi ng mas mataas na kadaliang kumilos, ngunit ang mga ito ay nagpapahiwatig ng posibleng mga mekanismo na maaaring tuklasin sa karagdagang trabaho, na eksakto kung ano ang ginawa ni Chetty at mga kasamahan sa susunod na gawain. Pansinin kung paano ang laki ng data ay talagang mahalaga sa proyektong ito. Kung ginamit ng Chetty at mga kasamahan ang mga tala ng buwis ng 40 libong tao kaysa sa 40 milyon, hindi sana nila matantya ang panrehiyong heterogeneity at hindi na nila magagawa ang kasunod na pananaliksik upang subukang tukuyin ang mga mekanismo na lumikha ng pagkakaiba-iba.

Figure 2.1: Mga pagtatantya ng mga pagkakataon ng bata na maabot ang pinakamataas na 20% ng pamamahagi ng kita na ibinigay ng mga magulang sa ibaba 20% (Chetty et al. 2014). Ang mga pagtatantya sa antas ng rehiyon, na nagpapakita ng heterogeneity, ay natural na humantong sa mga kawili-wili at mahahalagang tanong na hindi nagmumula sa isang solong pambansang antas ng pagtatantya. Ang mga panukalang antas sa rehiyon na ito ay naging posible sa bahagi dahil ang mga mananaliksik ay gumagamit ng isang malaking malaking mapagkukunan ng data: ang mga talaan ng buwis ng 40 milyong tao. Nilikha mula sa data na makukuha sa http://www.equality-of-opportunity.org/.

Figure 2.1: Mga pagtatantya ng mga pagkakataon ng bata na maabot ang pinakamataas na 20% ng pamamahagi ng kita na ibinigay ng mga magulang sa ibaba 20% (Chetty et al. 2014) . Ang mga pagtatantya sa antas ng rehiyon, na nagpapakita ng heterogeneity, ay natural na humantong sa mga kawili-wili at mahahalagang tanong na hindi nagmumula sa isang solong pambansang antas ng pagtatantya. Ang mga panukalang antas sa rehiyon na ito ay naging posible sa bahagi dahil ang mga mananaliksik ay gumagamit ng isang malaking malaking mapagkukunan ng data: ang mga talaan ng buwis ng 40 milyong tao. Nilikha mula sa data na makukuha sa http://www.equality-of-opportunity.org/.

Sa wakas, bilang karagdagan sa pag-aaral ng mga bihirang kaganapan at pag-aaral ng heterogeneity, ang malalaking dataset ay nagpapahintulot din sa mga mananaliksik upang makita ang mga maliliit na pagkakaiba. Sa katunayan, ang karamihan sa pagtuon sa malaking data sa industriya ay tungkol sa mga maliliit na pagkakaiba: mapagkakatiwalaang pag-detect sa pagkakaiba sa pagitan ng 1% at 1.1% na click-through rate sa isang ad ay maaaring isalin sa milyun-milyong dolyar sa dagdag na kita. Gayunman, sa ilang mga pang-agham na mga setting, ang mga maliliit na pagkakaiba ay maaaring hindi partikular na mahalaga, kahit na makabuluhan ito sa istatistika (Prentice and Miller 1992) . Ngunit, sa ilang mga setting ng patakaran, maaari silang maging mahalaga kapag tiningnan nang pinagsama-sama. Halimbawa, kung mayroong dalawang pampublikong pangkontra sa kalusugan at ang isa ay bahagyang mas epektibo kaysa sa iba, pagkatapos ang pagpili ng mas epektibong interbensyon ay maaaring magtagumpay sa pag-save ng libu-libong karagdagang buhay.

Kahit ang karangalan sa pangkalahatan ay isang mahusay na ari-arian kapag ginamit nang tama, napansin ko na minsan ay maaaring humantong sa isang haka-haka error. Para sa ilang kadahilanan, ang bigness ay tila humantong sa mga mananaliksik upang huwag pansinin kung paano nabuo ang kanilang data. Habang ang bigness ay binabawasan ang pangangailangan na mag-alala tungkol sa random na error, ito ay talagang pinatataas ang pangangailangan na mag-alala tungkol sa mga sistematikong pagkakamali, ang mga uri ng mga pagkakamali na ilalarawan ko sa ibaba na lumitaw mula sa mga biases kung paano nilikha ang data. Halimbawa, sa isang proyekto ay ilalarawan sa bandang huli sa kabanatang ito, ginamit ng mga mananaliksik ang mga mensaheng nabuo noong Setyembre 11, 2001 upang makagawa ng mataas na resolusyon na emosyonal na timeline ng reaksyon sa atake ng terorista (Back, Küfner, and Egloff 2010) . Dahil ang mga mananaliksik ay may malaking bilang ng mga mensahe, hindi nila kailangang mag-alala kung ang mga pattern na kanilang sinusunod-ang pagtaas ng galit sa paglipas ng panahon-ay maaaring ipaliwanag sa pamamagitan ng random na pagkakaiba-iba. Nagkaroon ng napakaraming data at ang pattern ay napakalinaw na ang lahat ng statistical statistical na mga pagsusulit iminungkahing na ito ay isang tunay na pattern. Ngunit, ang mga statistical test na ito ay ignorante kung paano nilikha ang data. Sa katunayan, naka-out na maraming mga pattern ay maiugnay sa isang solong bot na nakabuo ng higit pa at mas walang kahulugan mensahe sa buong araw. Ang pag-aalis ng isang bot na ito ay ganap na nawasak ang ilan sa mga pangunahing natuklasan sa papel (Pury 2011; Back, Küfner, and Egloff 2011) . Medyo simple, ang mga mananaliksik na hindi nag-iisip tungkol sa sistematikong error ay nakaharap sa panganib ng paggamit ng kanilang mga malalaking dataset upang makakuha ng isang tumpak na pagtantya ng isang hindi mahalaga na dami, tulad ng emosyonal na nilalaman ng walang kahulugan na mga mensahe na ginawa ng isang awtomatikong bot.

Sa konklusyon, ang malalaking dataset ay hindi isang dulo sa kanilang sarili, ngunit maaari nilang paganahin ang ilang mga uri ng pananaliksik kabilang ang pag-aaral ng mga bihirang kaganapan, ang pagtatantya ng heterogeneity, at ang pagtuklas ng mga maliliit na pagkakaiba. Ang mga malalaking dataset ay tila din na humantong sa ilang mga mananaliksik upang huwag pansinin kung paano nalikha ang kanilang data, na maaaring humantong sa mga ito upang makakuha ng tumpak na pagtantya ng isang hindi mahalaga na dami.