2.3.6 Mhux rappreżentattiv

Dejta mhux rappreżentattiva hija ħażina għal ġeneralizzazzjonijiet barra mill-kampjun, iżda tista 'tkun pjuttost utli għal paraguni fi ħdan il-kampjun.

Xi xjenzati soċjali huma mdorrijin jaħdmu b'data li ġejja minn kampjun probabilistiku każwali minn popolazzjoni definita tajjeb, bħall-adulti kollha f'pajjiż partikolari. Dan it-tip ta 'dejta jissejjaħ data rappreżentattiva minħabba li l-kampjun "jirrappreżenta" l-popolazzjoni akbar. Ħafna data tar-rappreżentanti tal-premjijiet tar-riċerkaturi, u għal xi dejta rappreżentattiva hija sinonimu ma 'xjenza rigoruża billi dejta mhux rappreżentattiva hija sinonima ma' nuqqas ta 'xkiel. Fl-iktar punt estrem, xi skeptiċi jidhru li jemmnu li xejn ma jista 'jittieħed minn dejta mhux rappreżentattiva. Jekk veru, dan jidher li jillimita severament dak li jista 'jinkiseb minn sorsi kbar ta' data minħabba li ħafna minnhom mhumiex rappreżentattivi. Fortunatament, dawn ix-xettiċi huma parzjalment id-dritt. Hemm ċerti għanijiet ta 'riċerka li għalihom id-dejta mhux rappreżentattiva mhix adattata b'mod ċar, iżda hemm oħrajn li għalihom jista' jkun verament utli.

Biex tifhem din id-distinzjoni, ejja nikkunsidra klassiku xjentifiku: l-istudju ta 'John Snow tal-tifqigħa tal-kolera 1853-54 f'Londra. Fiż-żmien, ħafna tobba jemmnu li l-kolera kienet ikkawżata minn "arja ħażina", iżda Snow kien jemmen li din kienet marda infettiva, forsi mifruxa b'ilma tax-xorb imrattab. Biex tittestja din l-idea, Snow ħadu vantaġġ minn dak li issa nistgħu nitolbu esperiment naturali. Huwa qabbel ir-rati tal-kolera tad-djar servuti minn żewġ kumpaniji tal-ilma differenti: Lambeth u Southwark & ​​Vauxhall. Dawn il-kumpaniji servew għal djar simili, iżda kienu differenti b'mod importanti: fl-1849-ftit snin qabel bdiet l-epidemija-Lambeth mexxiet il-punt ta 'dħul tagħha' l fuq mill-kwittanza ewlenija tad-drenaġġ f'Londra, filwaqt li Southwark & ​​Vauxhall ħallew il- rimi tad-drenaġġ. Meta Snow qabbel ir-rati tal-mewt mill-kolera fid-djar servuti miż-żewġ kumpaniji, huwa sab li l-klijenti ta 'Southwark & ​​Vauxhall-il-kumpanija li kienet qed tipprovdi lill-klijenti ilma mniġġes mid-drenaġġ kienu 10 darbiet aktar probabbli li jmutu mill-kolera. Dan ir-riżultat jipprovdi evidenza xjentifika qawwija għall-argument ta 'Snow dwar il-kawża tal-kolera, anki jekk ma tkunx ibbażata fuq kampjun rappreżentattiv ta' nies f'Londra.

Madankollu, id-dejta minn dawn iż-żewġ kumpaniji ma tkunx ideali biex twieġeb mistoqsija differenti: x'kienet il-prevalenza tal-kolera f'Londra waqt it-tifqigħa? Għal dik it-tieni mistoqsija, li hija importanti wkoll, ikun aħjar li jkun hemm kampjun rappreżentattiv ta 'nies minn Londra.

Kif juri x-xogħol ta 'Snow, hemm xi mistoqsijiet xjentifiċi li għalihom data mhux rappreżentattiva tista' tkun pjuttost effettiva u hemm oħrajn li għalihom mhix adatta biżżejjed. Mod wieħed mhux tajjeb biex jiddistingwi dawn iż-żewġ tipi ta 'mistoqsijiet huwa li xi mistoqsijiet huma dwar paraguni fil-kampjun u xi wħud huma dwar ġeneralizzazzjonijiet barra l-kampjun. Din id-distinzjoni tista 'tintwera aktar minn studju klassiku ieħor fl-epidemjoloġija: l-Istudju tat-Tobba Brittaniċi, li kellu rwol importanti biex juri li t-tipjip jikkawża l-kanċer. F'dan l-istudju, Richard Doll u A. Bradford Hill segwew madwar 25,000 tobba maskili għal bosta snin u qabblu r-rati tal-mewt tagħhom fuq l-ammont li kienu affumikati meta beda l-istudju. Doll and Hill (1954) sabet relazzjoni ta 'espożizzjoni-rispons qawwija: aktar nies kienu affumikati, iktar probabbli kienu li jmutu minn kanċer tal-pulmun. Naturalment, ma jkunx għaqli li tiġi stmata l-prevalenza tal-kanċer tal-pulmun fost il-persuni Britanniċi kollha bbażati fuq dan il-grupp ta 'tobba maskili, iżda t-tqabbil fil-kampjun għadu jipprovdi evidenza li t-tipjip jikkawża l-kanċer tal-pulmun.

Issa li stajt spjegat id-differenza bejn il-paraguni fil-kampjun u l-ġeneralizzazzjonijiet barra mill-kampjun, hemm żewġ twissijiet f'posthom. L-ewwelnett, naturalment hemm mistoqsijiet dwar safejn relazzjoni li tinżamm f'kampjun ta 'tobba Ingliżi maskili se żżomm ukoll f'kampjun ta' tobba femminili, Ingliżi jew ħaddiema tal-fabbrika Ingliżi maskili jew ħaddiema femminili tal-fabbrika Ġermaniża jew ħafna gruppi oħra. Dawn il-mistoqsijiet huma interessanti u importanti, iżda huma differenti minn mistoqsijiet dwar kemm inkunu nistgħu ġeneralizzar minn kampjun għal popolazzjoni. Avviż, per eżempju, li probabilment tissuspetta li r-relazzjoni bejn it-tipjip u l-kanċer li nstabet fi tobba Ingliżi maskili x'aktarx se tkun simili f'dawn il-gruppi l-oħra. Il-ħila tiegħek li tagħmel din l-estrapolazzjoni ma toħroġx mill-fatt li t-tobba Ingliżi maskili huma kampjun probabilistiku każwali minn kwalunkwe popolazzjoni; pjuttost, ġej minn fehim tal-mekkaniżmu li jgħaqqad it-tipjip u l-kanċer. Għalhekk, il-ġeneralizzazzjoni minn kampjun għall-popolazzjoni li minnha hija mfassla hija kwistjoni ta 'statistika fil-biċċa l-kbira, iżda mistoqsijiet dwar it- trasportabbiltà ta' mudell misjub f'grupp għal grupp ieħor huma fil-biċċa l-kbira kwistjoni mhux (Pearl and Bareinboim 2014; Pearl 2015) .

Fuq dan il-punt, xettiku jista 'jindika li l-biċċa l-kbira tax-xejriet soċjali probabbilment huma inqas trasportabbli bejn il-gruppi milli r-relazzjoni bejn it-tipjip u l-kanċer. U naqbel. Il-punt safejn għandna nistennew li x-xejriet ikunu trasportabbli hija fl-aħħar mill-aħħar kwistjoni xjentifika li trid tiġi deċiża bbażata fuq it-teorija u l-evidenza. M'għandux awtomatikament jiġi preżunt li x-xejriet se jkunu trasportabbli, iżda lanqas wieħed għandu jassumi li mhux se jkunu trasportabbli. Dawn il-mistoqsijiet kemmxejn astratti dwar it-trasportabilità jkunu familjari għalik jekk segwi d-dibattiti dwar kemm ir-riċerkaturi jistgħu jitgħallmu dwar l-imġieba tal-bniedem billi jistudjaw studenti li għadhom ma ggradwawx (Sears 1986, [@henrich_most_2010] ) . Minkejja dawn id-dibattiti, madankollu, ma jkunx raġonevoli li wieħed jgħid li r-riċerkaturi ma jistgħux jitgħallmu xi ħaġa mill-istudju ta 'studenti li għadhom ma ggradwawx.

It-tieni twiddiba hija li l-biċċa l-kbira tar-riċerkaturi b'dejta mhux rappreżentattiva mhumiex bir-reqqa daqs Snow jew Doll u Hill. Allura, biex turi x'jistgħu jmorru ħażin meta r-riċerkaturi jippruvaw jagħmlu ġeneralizzazzjoni barra mill-kampjun minn dejta mhux rappreżentattiva, nixtieq ngħidilkom dwar studju tal-elezzjoni parlamentari Ġermaniża tal-2009 minn Andranik Tumasjan u l-kollegi (2010) . Billi analizza aktar minn 100,000 tweet, huma sabu li l-proporzjon ta 'tweets li jsemmu partit politiku kien jaqbel mal-proporzjon tal-voti li rċevew fil-elezzjoni parlamentari (figura 2.3). Fi kliem ieħor, jidher li d-data ta 'Twitter, li kienet essenzjalment ħielsa, tista' tissostitwixxi l-istħarriġiet tradizzjonali dwar l-opinjoni pubblika, li jiswew ħafna minħabba l-enfasi tagħhom fuq dejta rappreżentattiva.

Minħabba dak li probabilment diġà taf dwar Twitter, għandek immedjatament tkun xettiku dwar dan ir-riżultat. L-Ġermaniżi fuq Twitter fl-2009 ma kinux kampjun każwali probabilistiku ta 'votanti Ġermaniżi, u partitarji ta' xi partijiet jistgħu jtejbu dwar il-politika ħafna iktar spiss minn partitarji ta 'partijiet oħra. Għalhekk, jidher sorprendenti li l-preġudizzji kollha possibbli li tista 'timmaġina b'xi mod jikkanċellaw hekk li din id-dejta tkun tirrifletti b'mod dirett il-votanti Ġermaniżi. Fil-fatt, ir-riżultati Tumasjan et al. (2010) irriżultaw li huma wisq tajbin biex ikunu vera. Dokument ta 'segwitu minn Andreas Jungherr, Pascal Jürgens u Harald Schoen (2012) enfasizza li l-analiżi oriġinali kienet eskludiet lill-partit politiku li effettivament irċieva l-aktar kitbiet fuq Twitter: il-Partit Pirata, parti żgħira li tissielet ir- ta 'l-Internet. Meta l-Parti Pirata kienet inkluża fl-analiżi, is-sejbiet ta 'Twitter isiru tbassir terribbli tar-riżultati tal-elezzjoni (figura 2.3). Kif juri dan l-eżempju, l-użu ta 'sorsi ta' data kbar mhux rappreżentattivi biex isiru ġeneralizzazzjonijiet barra mill-kampjun jistgħu jmorru ħażin ħafna. Ukoll, għandek tinnota li l-fatt li kien hemm 100,000 tweet kien bażikament irrilevanti: lottijiet ta 'dejta mhux rappreżentattiva għadha mhux rappreżentattiva, tema li ser terġa' lura fil-kapitolu 3 meta niddiskuti l-istħarriġ.

Figura 2.3: Is-sejbiet ta 'Twitter jidhru li jbassru r-riżultati tal-elezzjoni Ġermaniża tal-2009 (Tumasjan et al. 2010), iżda dan jeskludi l-parti bl-aktar modifiki: Pirate Party (Jungherr, Jürgens u Schoen 2012). Ara Tumasjan et al. (2012) għal argument favur l-esklużjoni tal-Partit Pirata. Adattat minn Tumasjan et al. (2010), tabella 4 u Jungherr, Jürgens u Schoen (2012), tabella 2.

Figura 2.3: Is-sejbiet ta 'Twitter jidhru li jbassru r-riżultati tal-elezzjoni Ġermaniża tal-2009 (Tumasjan et al. 2010) , iżda dan jeskludi l-parti bl-aktar modifiki: Pirate Party (Jungherr, Jürgens, and Schoen 2012) . Ara Tumasjan et al. (2012) għal argument favur l-esklużjoni tal-Partit Pirata. Adattat minn Tumasjan et al. (2010) , tabella 4 u Jungherr, Jürgens, and Schoen (2012) , tabella 2.

Bħala konklużjoni, ħafna sorsi ta 'dejta kbar mhumiex kampjuni rappreżentattivi minn xi popolazzjoni ddefinita sew. Għal mistoqsijiet li jeħtieġu ġeneralizzazzjoni tar-riżultati mill-kampjun lill-popolazzjoni li minnha ġiet imfassla, din hija problema serja. Iżda għal mistoqsijiet dwar paraguni fi ħdan il-kampjuni, dejta mhux rappreżentattiva tista 'tkun b'saħħitha, sakemm ir-riċerkaturi huma ċari dwar il-karatteristiċi tal-kampjun tagħhom u jsostnu talbiet dwar trasportabilità b'evidenza teoretika jew empirika. Fil-fatt, it-tama tiegħi hi li sorsi kbar ta 'dejta se jippermettu li r-riċerkaturi jagħmlu aktar paraguni fil-kampjun f'ħafna gruppi mhux rappreżentattivi, u r-risposta tiegħi hija li l-istimi minn ħafna gruppi differenti jagħmlu iktar biex javvanzaw ir-riċerka soċjali minn stima waħda minn probabilistiku każwali kampjun.