2.3.1.1 Big

Large datasets dia fitaovana ho levona; dia tsy lany tao amin'ny tenany.

Ny voalohany tamin'ireo telo toetra tsara ny tahirin-kevitra lehibe no tena noresahina: ireo tahirin-kevitra lehibe. Ireo antontan-kevitra dia afaka ny ho loharanon-kevitra lehibe eo amin'ny fomba telo samy hafa: maro ny olona, ​​maro ny vaovao isan-olona, ​​na maro fanamarihana rehefa mandeha ny fotoana. Ny fananana ny dataset lehibe mahatonga ny sasany karazana fikarohana manokana-mandrefy heterogeneity, ny fianarana zava-nitranga tsy fahita firy, vao hita ny fahasamihafana kely, sy ny fanaovana tombatombana avy observational causal angona. Izany koa Toa mba hitondra any amin'ny karazana sloppiness manokana.

Ny zavatra voalohany izay habeny indrindra indrindra no mifindra any an-dafin'ny eo ho eo ny mba hanao vinavina ho an'ny subgroups manokana. Ohatra, Gary King, Jennifer Pan, ary Molly Roberts (2013) norefesiny ny mety fa ny haino aman-jery sosialy any Shina lahatsoratra ho voasivana ny governemanta. Raha amin'ny tenany ihany eo ho eo izany mety ny famafana dia tsy tena manampy ny fahatakarana ny antony mahatonga ny mpanao sivan'ny fitondrana lahatsoratra sasany fa tsy olon-kafa. Nefa, satria ny dataset anisan'izany 11 tapitrisa Lahatsoratra, Mpanjaka sy ny mpiara-miasa ihany koa ny namoaka vinavina ho ny mety ho sivana ny lahatsoratra ao amin'ny sokajy 85 samihafa (ohatra, sary vetaveta, Tibet, ary ny fifamoivoizana any Beijing). Amin'ny alalan'ny fampitahana ny mety ho sivana ny lahatsoratra ao amin'ny sokajy samy hafa, dia afaka mahatakatra bebe kokoa momba ny fomba sy ny antony ny mpanao sivan'ny fitondrana izany karazana lahatsoratra sasany. Amin'ny 11 alina Lahatsoratra (fa tsy 11 tapitrisa Lahatsoratra), dia tsy afaka ny hamokatra ireo sokajy-vinavina manokana.

Faharoa, ny habeny dia ilaina indrindra ho an'ny dia mianatra ny zava-nitranga tsy fahita firy. Ohatra, Goel sy mpiara-miasa (2015) te hianatra ny fomba samihafa izay bitsika afaka mandeha niparitaka be. Satria lehibe Cascades ny re-bitsika no tena tsy fahita firy-tokony ho iray ao amin'ny 3000-nila nianatra bebe kokoa noho ny arivo tapitrisa bitsika mba hahita ampy Cascades lehibe noho ny fanadihadiana.

Fahatelo, lehibe datasets hahafahan'ny mpikaroka ny mamantatra ny fahasamihafana kely. Raha ny marina, ny ankamaroan 'ny fifantohana lehibe amin'ny angon-drakitra momba ireo orinasa dia kely ny fahasamihafana: reliably vao hita ny maha samy hafa ny 1% sy 1,1% ny tahan'ny Click-amin'ny alalan'ny dokam-barotra ao amin'ny iray dia afaka handika an-tapitrisa dolara eo amin'ny fidiram-bola fanampiny. Amin'ny toe-javatra sasany ara-tsiansa, toy izany fahasamihafana kely mety tsy ho zava-dehibe manokana (na dia manan-danja ny antontan'isa). Nefa, amin'ny toe-javatra politika sasany, toy izany fahasamihafana kely dia mety ho lasa zava-dehibe, raha jerena amin'ny aggregate. Ohatra, raha misy asa atao roa fahasalamam-bahoaka ary ny iray dia kely kokoa noho ny hafa, dia ara ny vokatra kokoa fitsabahan'ny mety hiafara fahavaratra an'arivony fanampiny fiainany.

Farany, angon-drakitra lehibe indrindra milentika hampitombo ny fahafahantsika manao causal observational vinavina avy amin'ny angon-drakitra. Na dia lehibe datasets tsy manova ifotony ny olana amin'ny fanaovana causal inference avy observational tahirin-kevitra, mitovy sy voajanahary fanandramana-teknika roa izay no lasa mpikaroka noho ny fanaovana fitakiana avy amin'ny observational causal data-samy handray soa avy amin'ny lehibe indrindra datasets. Aho hanazava sy mampiseho izany filazana amin'ny antsipirihany kokoa tatỳ aoriana ao amin'ity toko ity raha milaza fikarohana paikady.

Na dia amin'ny ankapobeny bigness tsara, rehefa ampiasaina araka ny tokony ho fananana, nahatsikaritra aho fa matetika bigness-pisainana mitarika ho amin'ny fahadisoana. Noho ny antony, bigness toa hitarika ny mpikaroka mba tsy miraharaha ny fomba ny antontan-kevitra dia niteraka. Raha bigness no mampihena ny tokony hampanahy ny mikasika kisendrasendra fahadisoana, dia tena mampitombo ny ilaina ny manahy momba ny paika fahadisoana, ny karazana fahadisoana izay aho milaza ao ambany kokoa izay hitsangana avy amin'ny mifanavakavaka amin'ny fomba antontan-kevitra dia nohariana sy nanangona. Ao amin'ny kely dataset, na kisendrasendra fahadisoana sy mitohy dia mety ho diso zava-dehibe, fa amin'ny lehibe dataset sendra fahadisoana no azo nahatratra fahadisoana izy sy mitohy manjaka. Mpikaroka izay tsy mieritreritra ny mitohy fahadisoana izany dia hiafara amin'ny fampiasana ny lehibe datasets mba hahazo ny marina Tombanana ny zavatra tsy mety; dia ho diso indrindra (McFarland and McFarland 2015) .