2.3.6 reprezenta

Ne reprezentaj datumoj estas malbonaj por ekster-ekzemplaj ĝeneraligoj, sed povas esti sufiĉe utilaj por inter-specimaj komparoj.

Iuj sociaj scienculoj kutimas labori kun datumoj, kiuj venas de probabla hazarda specimeno de bone difinita populacio, kiel ĉiuj plenkreskuloj en aparta lando. Ĉi tiu speco de datumoj nomas reprezentaj datumoj ĉar la specimeno "reprezentas" la pli grandan populacion. Multaj esploristoj prezas reprezentajn datumojn, kaj al iuj, reprezentaj datumoj estas sinónimo de strikta scienco, dum kiu ne reprezentaj datumoj estas sinónimo de malrapideco. Ĉe plej ekstrema, iuj skeptoj ŝajnas kredi, ke nenio povas esti lernita de ne reprezentaj datumoj. Se vera, ĉi tio ŝajnas severe limigi kion oni povas lerni de grandaj datumaj fontoj ĉar multaj el ili ne estas reprezentaj. Feliĉe, ĉi tiuj skeptikaj estas nur parte ĝentilaj. Ekzistas iuj esploraj celoj, por kiuj ne reprezentaj datumoj klare ne tre taŭgas, sed ekzistas aliaj, por kiuj ĝi vere povus esti sufiĉe utila.

Por kompreni ĉi tiun distingon, ni konsideru sciencan klasikaĵon: la studo de John Snow pri la eksplodo de 1853-54 en Londono. En tiu tempo multaj kuracistoj kredis, ke la kolero estis kaŭzita de "malbona aero", sed Neĝo kredis, ke ĝi estas infekta malsano, eble disvastigita per akvopluga akvo. Por provi ĉi tiun ideon, Neĝo utiligis tion, kion ni nun povus nomi natura eksperimento. Li komparis la kolerajn tarifojn de hejmoj servataj de du malsamaj akvaj kompanioj: Lambeth kaj Southwark & ​​Vauxhall. Ĉi tiuj kompanioj servis similajn familiojn, sed ili diferencis unuflanke: en 1849-kelkaj jaroj antaŭ ol la epidemio komenciĝis - Lambeth movis ĝian ingesta punkto supren de la ĉefa akvofluo en Londono, dum Southwark & ​​Vauxhall forlasis sian ingestajn tubon malsupren de la malŝarĝo de alcantarillado. Kiam Neĝo komparis la mortpostojn de la kolero en domoj servitaj de la du kompanioj, li trovis, ke la klientoj de Southwark & ​​Vauxhall-la kompanio, kiu provizis klientojn al akvobluaj akvoj, havis 10 fojojn pli verŝajne morti de la kolero. Ĉi tiu rezulto provizas fortan sciencan evidentecon pri la argumento de Neĝo pri la kaŭzo de la kolero, kvankam ĝi ne baziĝas sur reprezenta specimeno de homoj en Londono.

La datumoj de ĉi tiuj du kompanioj, tamen, ne estus idealaj por respondi malsaman demandon: kio okazis la populareco de kolero en Londono dum la eksplodo? Por tiu dua demando, kiu estas ankaŭ grava, estus multe pli bone havi reprezentan specimenon de homoj el Londono.

Kiel la verko de Snow ilustras, ekzistas iuj sciencaj demandoj, por kiuj ne reprezentaj datumoj povas esti sufiĉe efikaj kaj ekzistas aliaj, por kiuj ĝi ne taŭgas. Unu kruda maniero por distingi ĉi tiujn du specojn de demandoj estas, ke iuj demandoj estas pri samtempaj komparoj kaj iuj estas pri ekster-ekzemplaj ĝeneraligoj. Ĉi tiu distingo povas esti pli klera per alia klasika studo en epidemiologio: la Brita Doktoro-Studo, kiu ludis gravan rolon en pruvi, ke fumado kaŭzas kanceron. En ĉi tiu studo, Richard Doll kaj A. Bradford Hill sekvis proksimume 25,000 virseksajn kuracistojn dum pluraj jaroj kaj komparis siajn mortpostojn laŭ la kvanto, kiun ili fumis kiam la studo komencis. Doll and Hill (1954) trovis fortan ekspozicion-respondan rilaton: la pli multe da homoj fumis, pli verŝajne ili mortos de pulmo-kancero. Kompreneble, estus malprudenta taksi la prevalencon de pulmo-kancero inter ĉiuj britaj homoj bazitaj sur ĉi tiu grupo de viraj kuracistoj, sed la interna specimeno ankoraŭ provas, ke fumado kaŭzas pulmonon.

Nun, ke mi ilustris la diferencon inter ene-specimaj komparoj kaj ekster-ekzemplaj ĝeneraligoj, du kazoj estas en ordo. Unue, estas nature demandoj pri la grado, al kiu rilato inter specimeno de viraj britaj kuracistoj ankaŭ tenos en specimeno de inaj, britaj kuracistoj aŭ viraj britaj fabrikaj laboristoj aŭ inaj germanaj fabrikistoj aŭ multaj aliaj grupoj. Ĉi tiuj demandoj estas interesaj kaj gravaj, sed ili diferencas demandojn pri la grado, al kiu ni povas ĝeneraligi el specimeno al loĝantaro. Rimarku, ekzemple, ke vi verŝajne suspektas, ke la rilato inter fumado kaj kancero, trovita en viraj britaj kuracistoj verŝajne estos simila en ĉi tiuj aliaj grupoj. Via kapablo fari ĉi tiun eksterpremadon ne venas de la fakto, ke viraj britaj kuracistoj estas probabla hazarda specimeno de iu ajn populacio; pli ĝuste, ĝi venas de kompreno de la mekanismo kiu ligas fumadon kaj kanceron. Tiel, la ĝeneraligo de specimeno al la populacio el kiu estas desegnita estas plejparte statistika afero, sed demandoj pri la transportemo de ŝablono trovitaj en unu grupo al alia grupo estas plejparte neatistika afero (Pearl and Bareinboim 2014; Pearl 2015) .

Ĉe ĉi tiu punkto, skeptika eble rimarku, ke multaj sociaj ŝablonoj estas probable malpli transporteblaj inter grupoj ol la rilato inter fumado kaj kancero. Kaj mi konsentas. La mezuro, pri kiu ni devus atendi ŝablonojn transporteblajn, estas finfine scienca demando, kiu devas esti decidita laŭ teorio kaj evidenteco. Ĝi ne devus esti supozite aŭtomate, ke ŝablonoj estos transporteblaj, sed ankaŭ ne devus supozi, ke ili ne estos transporteblaj. Ĉi tiuj iom abstraktaj demandoj pri transportado estos konataj al vi, se vi sekvis la diskutojn pri kiom da esploristoj povas lerni pri homaj kondutoj studante studentojn de studentoj (Sears 1986, [@henrich_most_2010] ) . Malgraŭ ĉi tiuj debatoj, tamen, estus neregeble diri, ke esploristoj ne povas lerni ion ajn ol studi studentojn.

La dua pruvo estas, ke multaj esploristoj kun ne reprezentaj datumoj ne estas tiel zorga kiel Neĝo aŭ Dolo kaj Monteto. Do, por ilustri, kio povas iri malbone kiam esploristoj provas fari ekster-ekzemplan ĝeneraligon de ne reprezentaj datumoj, mi ŝatus diri al vi pri studo de la 2009-datita germana parlamenta elekto fare de Andranik Tumasjan kaj kolegoj (2010) . Analizinte pli ol 100,000 tweets, ili trovis, ke la proporcio de tweets mencii politikan partion egalis la proporcion de voĉoj kiujn ricevis tiu partio en la parlamentaj elektoj (figuro 2.3). Alivorte, ĝi aperis ke Twitter-datumoj, kiuj estis esence liberaj, povus anstataŭigi tradiciajn enketojn de publikaj opinioj, kiuj estas multekostaj pro ilia emfazo sur reprezentaj datumoj.

Donita, kion vi verŝajne jam scias pri Twitter, vi devus tuj esti skeptika pri ĉi tiu rezulto. Germanoj en Twitter en 2009 ne estis probabla hazarda specimeno de germanaj voĉdonantoj, kaj subtenantoj de iuj partioj povus tweet pri politiko multe pli ofte ol subtenantoj de aliaj partioj. Tiel, ŝajnas surprize, ke iel ĉiuj eblaj preĝiĝoj, kiujn vi povus imagi, ĉiel nuligus por ke ĉi tiu datumo rekte reflektus germanajn voĉdonantojn. Fakte, la rezultoj en Tumasjan et al. (2010) rezultis esti tro bona por esti vera. Sekva papero fare de Andreas Jungherr, Pascal Jürgens kaj Harald Schoen (2012) montris, ke la originala analizo ekskludis la politikan partion, kiu efektive ricevis la plej multajn menciojn en Twitter: la Piratpartio, partion kiu luktas registaran reglamenton. de interreto. Kiam la Piratpartio estis inkluzivita en la analizo, Twitter mencioj fariĝas terura antaŭdiro de elektoj (figuro 2.3). Kiel ĉi tiu ekzemplo ilustras, uzante neprezentajn grandajn datumojn por fari ekster-ekzemplajn ĝeneraligojn povas iri tre malĝuste. Ankaŭ, vi rimarku, ke la fakto, ke ekzistas 100,000 tweets, estis esence pala: multaj ne reprezentaj datumoj ankoraŭ ne reprezentas, temon, kiun mi revenos en la ĉapitro 3, kiam mi diskutas enketojn.

Figuro 2.3: La mencioj de Twitter ŝajnas antaŭdiri la rezultojn de la germanaj elektoj de 2009 (Tumasjan et al. 2010), sed tio ekskludas la partion kun la plej multaj mencioj: Piratpartio (Jungherr, Jürgens kaj Schoen 2012). Vidu Tumasjan et al. (2012) por argumento al favoro ekskludante la Piraton-Partion. Adaptita de Tumasjan et al. (2010), tablo 4 kaj Jungherr, Jürgens kaj Schoen (2012), tablo 2.

Figuro 2.3: La mencioj de Twitter ŝajnas antaŭdiri la rezultojn de la germanaj elektoj de 2009 (Tumasjan et al. 2010) , sed tio ekskludas la partion kun la plej multaj mencioj: Piratpartio (Jungherr, Jürgens, and Schoen 2012) . Vidu Tumasjan et al. (2012) por argumento al favoro ekskludante la Piraton-Partion. Adaptita de Tumasjan et al. (2010) , tablo 4 kaj Jungherr, Jürgens, and Schoen (2012) , tablo 2.

Por fini, multaj grandaj datumaj fontoj ne estas reprezentaj specimenoj de iu bone difinita populacio. Por demandoj, kiuj postulas ĝeneraligi rezultojn de la specimeno al la populacio, el kiu ĝi estis desegnita, ĉi tio estas grava problemo. Sed por demandoj pri inter-specimaj komparoj, ne reprezentaj datumoj povas esti potencaj, kondiĉe ke esploristoj klaras pri la karakterizaĵoj de sia specimeno kaj subteno de asertoj pri transportabilidad kun teoria aŭ empira evidenteco. Fakte, mia espero estas, ke grandaj datumaj fontoj ebligas esploristojn fari pli inter-specimajn komparojn en multaj ne reprezentaj grupoj, kaj mia konjekto estas, ke taksoj de multaj malsamaj grupoj faros pli por antaŭenigi socian esploradon ol ununuran takson de hazardo hazarda specimeno