2.1 Panimula

Sa analog edad, pagkolekta ng data tungkol sa pag-uugali-na ginagawa kung ano ang kapag-ay mahal, at samakatuwid, relatibong bihirang. Ngayon, sa mga digital na edad, ang pag-uugali ng mga bilyun-bilyong ng mga tao ay naitala, na naka-imbak, at analisable. Halimbawa, sa tuwing nag-click sa isang website, gumawa ng isang tawag sa iyong cell phone, o magbayad para sa isang bagay sa iyong credit card, ang isang digital talaan ng iyong mga pag-uugali ay nilikha at naka-imbak sa pamamagitan ng isang negosyo. Dahil ang mga data ay isang by-produkto ng bawat aksyon araw ng mga tao, ang mga ito ay madalas na tinatawag na digital traces. Bilang karagdagan sa mga traces na hawak ng mga negosyo, mga pamahalaan ay mayroon ding hindi kapani-paniwalang mayaman data tungkol sa parehong mga tao at mga negosyo, ang data na kung saan ay madalas na Digitized at analisable. Magkasama ang mga negosyo at pamahalaan talaan ay madalas na tinatawag na malaking data.

Ang kailanman-tumataas na baha ng malaking data ay nangangahulugan na kami ay inilipat mula sa isang mundo kung saan ang asal data ay mahirap makuha sa isang mundo kung saan ang asal data ay sagana. Ngunit, dahil ang mga uri ng data ay relatibong bago, isang kapus-palad na halaga ng pananaliksik gamit ang mga ito ganito ang hitsura ng mga siyentipiko walang taros habol magagamit na data. Ang kabanatang ito ay, sa halip, ay nagbibigay ng isang may prinsipyo na diskarte sa pag-unawa sa iba't ibang mga pinagmulan ng data at kung paano sila ay ginagamit. Ito richer unawa ay dapat makatulong sa iyo ng mas mahusay na tumutugma sa iyong mga katanungan pananaliksik sa mga angkop na mga pinagkukunan ng data. O kaya naman, kung tulad umiiral pinagkukunan ay kulang sa panahon, kumbinsihin sa iyo upang mangolekta ng iyong sariling mga data gamit ang mga ideya sa hinaharap chapters.

Ang unang hakbang sa pag-aaral mula sa malaking data ay upang mapagtanto na ito ay bahagi ng isang mas malawak na kategorya ng mga data na ito ay ginagamit para sa mga social pananaliksik para sa maraming mga taon: obserbasyonal data. Sa pahapyaw, obserbasyonal data ay anumang data na nagreresulta mula sa observing isang social system na walang nakiki-alam sa ilang mga paraan. A magaspang na paraan upang isipin ang tungkol dito ay na pagmamatyag ng data ay lahat ng bagay na hindi kasangkot sa pakikipag-usap sa mga tao (eg, mga survey, ang paksa ng Kabanata 3) o pagbabago ng mga tao na kapaligiran (hal, mga eksperimento, ang paksa ng kabanata 4). Kaya, bilang karagdagan sa negosyo at pamahalaan talaan, pagmamatyag ng data Kasama rin ang mga bagay tulad ng mga teksto ng mga artikulo sa pahayagan at satellite litrato.

Ang kabanatang ito ay may tatlong bahagi. Una, sa Section 2.2, ilarawan ko malaking data sa mas maraming mga detalye at linawin ang isang pangunahing pagkakaiba sa pagitan ng ito at ang data na na sa pangkalahatan ay ginagamit para sa panlipunang pananaliksik sa nakaraan. Pagkatapos, sa Section 2.3, ilarawan ko sampung mga karaniwang katangian ng malaking pinagkukunan ng data. Pag-unawa sa mga katangian ay nagbibigay-daan sa amin upang mabilis na makilala ang mga lakas at kahinaan ng mga umiiral na mga mapagkukunan at makakatulong sa amin gamitin ang bagong mga pinagkukunan na lilikhain sa hinaharap. Sa wakas, sa Section 2.4, ilarawan ko tatlong pangunahing estratehiya pananaliksik na maaari mong gamitin upang matuto mula sa obserbasyonal data: pagbibilang ng mga bagay, forecasting bagay, at approximating isang eksperimento.