2.4.1 wax Tirinta

Tirinta Simple noqon kartaa mid xiiso haddii aad isku su'aal wanaagsan la xogta wanaagsan.

Inkasta oo lagu sharraxo luuqad casri ah, cilmi-baaris badan oo bulsheed ayaa dhab ahaantii tirinaya waxyaabo. Marka da'da xogta weyn, cilmi-baarayaashu waxay tirin karaan in ka badan abid, laakiin taasi macnaheedu maaha in ay hadda bilaabaan tirinta tirinta. Taa baddalkeeda, cilmi-baadhayaashu waa in ay weydiiyaan: Waa maxay waxyaabaha ay tahay inay qiimeeyaan? Tani waxay u muuqan kartaa sida guud ahaan shakhsiyadeed, laakiin waxaa jira qaabab guud.

Badanaa ardaydu waxay dhiirigeliyaan cilmi baaris tirinta iyagoo tirinaya: Waxaan doonayaa inaan tiriyo wax aan horay loo tirin. Tusaale ahaan, arday wuxuu sheegi karaa in dad badani ay barteen muhaajiriinta, dad badanna waxay barteen mataanaha, laakiin cidina ma ay baran laba mataano ah. Istaraatiijiyadeyda, istaraatiijiyadan, oo aan ugu yeero dhiirigelinta maqnaanshaha , badanaa ma keento baaritaan wanaagsan. Mabnuucidda maqnaanshaha waa nooca sida isagoo dhahaya waxaa jira god yar, oo waxaan u shaqeyn doonaa si adag si aan u buuxiyo. Hase yeeshee, god kasta oo loo baahan yahay in la buuxiyo.

Halkii ay ku dhiiri galin lahaayeen maqnaanshaha, waxaan u maleynayaa in istaraatijiyad fiican ay tahay in la raadiyo su'aalo cilmi baaris ah oo muhiim ah ama xiiso leh (ama labadaba labadaba). Labada ka mid ah ereyadani waa kuwo aad u adag in la qeexo, laakiin hal dariiq oo laga yaabo in ay ka fekeraan cilmi-baaris muhiim ah waa in ay leedahay saameyn la qiyaasi karo ama quudineysa go'aan muhiim ah oo ay sameeyaan siyaasad dejiyeyaasha. Tusaale ahaan, qiyaasidda heerka shaqo la'aanta waa muhiim sababtoo ah waxay calaamad u tahay dhaqaalaha ku haya go'aannada siyaasadda. Guud ahaan, waxaan u maleynayaa in cilmi-baarayaashu leeyihiin dareen wanaagsan oo ah waxa muhiimka ah. Sidaa darteed, qaybta inteeda kale, waxaan u jeedinayaa laba tusaale oo aan ku fekerayo in tirinta ay tahay mid xiiso leh. Xaalad waliba, cilmi-baarayaashu ma aysan tirin karan; halkii, waxay ku xisaabtameen goobo gaar ah oo muujiyay fikrado muhiim ah fikradaha guud ee ku saabsan sida hababka bulsheed u shaqeynayaan. Si kale haddii loo dhigo, waxyaabo badan oo ka dhigaya jimicsiyada tirinta gaar ah ee xiisaha leh ma aha xogta lafteeda, waxay ka timaadaa fikradaha guud ee guud.

Mid ka mid ah awoodda fudud ee xisaabinta waxay ka imanaysaa daraasaddaha Henry Farber (2015) ee dhaqanka darawaliinta taksiga ee New York. Inkasta oo kooxdani aanay u muuqan mid muuqata oo xiiso leh, waa goob cilmi-baaris oo istiraatijiyadeed ah si loo tijaabiyo laba fikradood oo tartan ah oo ku saabsan dhaqaalaha foosha. Ujeedooyinka cilmi baarista Farber, waxaa jira laba muuqaal oo muhiim ah oo ku saabsan bay'ada shaqada ee darawaliinta: (1) mushaharkooda saacadoodba wuxuu u socdaa maalinba maalinta ka dambaysa, oo ku salaysan arrimaha sida cimilada, iyo (2) tirada saacadaha shaqadu way isbeddeli karaan maalin kasta iyada oo ku saleysan go'aanadooda. Tilmaamahan waxay keenayaan su'aallo xiiso leh oo ku saabsan xidhiidhka saacadaha saacadaha iyo saacadaha ay shaqeeyaan. Noocyada qashinka ah ee dhaqaalaha ayaa saadaaliyay in darawallada taksiinta ay sii shaqeyn doonaan maalmo badan oo ay ku leeyihiin mushahar saacad ka badan. Haddii kale, moodooyinka dhaqaalaha habdhaqanka ayaa saadaaliya sida saxda ah. Haddii darawaliintu bartilmaameed gaar ah yiraahdaan - waxay leeyihiin $ 100 maalintiiba - oo ka shaqee ilaa bartilmaameedkaas la dhammaystiro, darawalkuna wuxuu ku dhamaan doonaa saacado yar oo shaqeynaya maalmaha ay kasbadaan. Tusaale ahaan, haddii aad tahay qof ujeedadiisu tahay, waxaa laga yaabaa inaad ku dhamaato afar saacadood shaqo maalin dhan ($ 25 saacadiiba) iyo shan saacadood maalinta maalinta xun ($ 20 saacadiiba). Sidaa daraadeed, darawaladu ma shaqeeyaan saacado badan maalmaha leh mushaharka saacadaha dheeraadka ah (sida loo saadaaliyay qaababka dhexdhexaadinta) ama saacado ka badan maalmaha mushaharka saacadaha hooseeya (sida saadaalinta moodooyinka dhaqaale ee habdhaqanka)?

Si aad uga jawaabto su'aashan Farber wuxuu helay xog ku saabsan safar kasta oo taxane ah oo ay qaadatay New York City cabsi laga soo bilaabo 2009 ilaa 2013, xogta hadda la heli karo. Macluumaadkan-kaas oo lagu ururiyey mitir elektaroonik ah oo magaaladu u baahan tahay taksiyo si loo isticmaalo-ku dar macluumaadka ku saabsan safar kasta: bilowga wakhtiga, bilawga goobta, dhamaadka wakhtiga, dhammaadka goobta, qiimaha, iyo caarada (haddii caarada la siiyo kaararka deynta) . Isticmaalka xogta mitir-tiran, Farber wuxuu ogaaday in badi darawalku ay ka shaqeeyaan maalmo badan marka mushaharka ay ka sarreeyaan, ayadoo la waafaqsan yahay aragti qoto-dheer.

Marka laga soo tago raadintaan weyn, Farber wuxuu awooday inuu isticmaalo xajmiga xogta si loo fahmo fahamka hiddaha iyo dhaqdhaqaaqa. Wuxuu ogaaday, in muddo ka dib, darawalada cusubi si tartiib tartiib ah u bartaan inay shaqeeyaan saacado dheeraad ah maalmaha mushaarka badan (tusaale ahaan, waxay bartaan inay u dhaqmaan sida habka dhexdhexaadinta). Darawalayaasha cusub ee u dhaqma sida kuwa kale ee la beegsanayo waxay u badan tahay inay joojiyaan darawaliinta taksiga. Labadaba waxyaabahan soo baxa oo aan macquul ahayn, kuwaas oo ka caawinaya sharaxaadda dhaqanka la arkay ee darawallada hadda, waxay ahaayeen kuwo suurtogal ah oo keliya sababtoo ah cabbirka dataset. Waxay ahaayeen kuwo aan suurtagal ahayn in la ogaado daraasadihii hore ee isticmaala warqadaha waraaqaha waraaqaha ah oo ka yimid tiro yar oo ka mid ah darawaliinta taxi ah mudo gaaban (Camerer et al. 1997) .

Daraasadda Farber waxay ku dhowdahay xaaladda ugu wanaagsan ee kiisaska cilmi-baarista iyadoo la adeegsanayo ilo xogeed oo weyn iyada oo xogta ay soo uruurisay magaalada ay aad ugu dhowdahay xogta Farber ay soo ururin lahayd (hal farqi ayaa ah in Farber uu rabi lahaa xogta guud mushaharka-fares iyo talooyin-laakiin xogta magaalada oo kaliya waxaa ku jira talooyin ay bixisay kaarka deynta). Si kastaba ha ahaatee, xogta kali kuma filna. Furaha cilmi-baarista Farber wuxuu keeney su'aal xiiso leh oo ku saabsan xogta, su'aasha ah in ay saameyn weyn ku yeelato meel ka baxsan goobtan gaarka ah.

Tusaale labaad ee tirinta waxyaabaha ayaa ka yimid cilmi-baaris ay samaysay Gary King, Jennifer Pan, iyo Molly Roberts (2013) ku saabsan faaf-reebka internetka ee xukuumadda Shiinaha. Xaaladdan, si kastaba ha ahaatee, cilmi-baarayaashu waa inay ururiyaan xogahooda waaweyn oo ay ku khasban yihiin inay wax ka qabtaan xaqiiqda ah in xogtoodu aysan dhameystirneyn.

Boqorka iyo asxaabtiisuba waxay dhiirigeliyeen xaqiiqda ah in warbaahinta bulshada ee ku yaala dalka Shiinaha ay cuna qabatey dawlad weyn oo loo malaynayo inay ku jiraan tobanaan kun oo qof. Cilmi-baareyaasha iyo muwaadiniinta, si kastaba ha ahaatee, waxay leeyihiin dareen yar oo ku saabsan sida ay doorashooyinkan u go'aaminayaan waxyaabaha la rabo in la tirtiro. Aqoonyahanka Shiinaha ayaa dhab ahaantii haysta rajooyin isku dhafan oo ku saabsan noocyada kala duwan ee posts waxay u badan tahay in la tirtiro. Qaar waxay u maleynayaan in canshurku ay diiradda saaraan jadwalka ay dawladu xoogga saarto, halka kuwa kale ay u maleynayaan inay diiradda saaraan boosteejooyinka dhiirigeliya dhaqanka wadajir ah, sida dibad-baxyada. In la ogaado waxyaabaha laga filayo waxa ka mid ah waxa ay saameyn ku yeelanayaan sida cilmi-baarayaashu u fahmaan Shiinaha iyo dowladaha kale ee madax-dhaqameedka ee ku lug leh faafreebka. Sidaa darteed, King iyo jaaliyaddooduba waxay rabeen inay isbarbardhigaan dhajimaha la daabacay kadibna la tirtiray boostooyinka la daabacay oo aan waligood tirtirin.

Ururinta posts kuwaas oo ku lug rikoorkaan injineernimada cajiib ah oo gurguurta in ka badan 1,000 websites-kasta warbaahinta bulshada Chinese la page kala duwan Layouts-raadin ah posts khuseeya, ka dibna dib u soo booqanayaa posts kuwaas oo si aad u aragto, taas oo markii danbe laga tirtiray. Waxa intaa dheer in dhibaatooyinka injineernimada caadiga ah ee la xidhiidha baaxadda weyn web-gurguurashada, mashruucan lahaa caqabad ku daray in loo baahan yahay in ay aad u degdeg ah sababtoo ah posts badan tixan yihiin qaaday hoos ka yar 24 saacadood. In si kale loo dhigo, crawler la'ahay seegi doono badan oo posts la tixan. Dheeraad ah, guurguurtayaal ku lahaa in la sameeyo oo dhan ururinta xogta this halka diico ogaanshaha Waaba intaasoo ay website-yada warbaahinta bulshada quful ama haddii kale bedesho siyaasadaha ay jawaab u daraasadda.

Waqtigaan la dhamaystiray hawlaha injineernimada weyn, Boqorka iyo asxaabtu waxay heleen qiyaastii 11 malyuun oo boosteejo ah oo ku saabsan 85 mawduucyo kala duwan oo loo diyaariyey, mid waliba oo leh heer la dareemayo. Tusaale ahaan, mawduuc dareenka sareeya waa Ai Weiwei, farshaxanno khilaafsan; mawduuca dareenka dhexdhexaadka ah waa qadarin iyo qiimeeynta lacagta China, mowduuca dareenka hooseeya waa Koobka Adduunka. 11 malyuun oo ka mid ah mawaadiicdan, ayaa lagu qiyaasay 2 milyan Si aad ah u yaab leh, Boqorka iyo saaxiibada ayaa ogaaday in posts in mawduucyada xasaasiga ah lagu faafiyey oo kaliya calaamad yar oo kaliya inta ka badan posts ee mowduucyada dhexdhexaad ah iyo hooseeyo. Si kale haddii loo dhigo, cadeymaha Shiineysku waxay u badan tahay in ay u muuqato in ay cambaareynayaan boosteejo ah oo sheegaysa Ai Weiwei oo ah post kaasoo ka hadlaya Koobka Adduunka. Natiijooyinkani ma taageersan fikradda ah in xukuumaddu ay canshurta ku dhejiso dhammaan mawduucyada mawduucyada xasaasiga ah.

Si kastaba ha ahaatee xisaabinta fudud ee faafreerida ee mawduuca ayaa laga yaabaa in ay marin habaabiso. Tusaale ahaan, dowladdu waxa laga yaabaa in ay canshuur u dirto Ai Weiwei, laakiin waxay ka tagtaa xarumaha muhiimka u ah isaga. Si loo kala saaro jagooyinka si taxadar leh, cilmi-baarayaashu waxay u baahnaayeen inay cabbiraan dareenka xaallad kasta. Nasiib daro, inkastoo shaqo badani, hababka si buuxda u shaqeynaya ee lagu ogaanayo cabashooyinka isticmaalka qiyaasaha horay u jirey weli wali kuma fiicnayn xaalado badan (ka feker dhibaatooyinka abuuraya dareen dareen ah ee Sebtembar 11, 2001 lagu sharraxay qaybta 2.3.9). Sidaa daraadeed Boqorka iyo asxaabtuba waxay u baahdeen hab lagu calaamadiyo 11 malyuun oo warbaahinta bulshada ah sida ay ahaayeen (1) mid ka mid ah dawlad-goboleedka, (2) taageerada dawlad-goboleedka, ama (3) warbixinno aan ku habboonayn ama xaqiiqda ku saabsan dhacdooyinka. Tani waxay u muuqataa sidii shaqo weyn, laakiin waxa ay u xalin isticmaalaya trick xoog badan in uu yahay wax caadi ah in sayniska xogta laakiin dhif ku ahaa cilmiga bulshada, barashada kormeero, eeg sawirka 2.5.

Ugu horreyntii, tallaabo loo yaqaan " preprocessing" , cilmi-baarayaashu waxay beddeleen boosteejooyinka warbaahinta bulshada oo ay ku dhejiyaan qoraallo dukumiinti ah , halkaas oo hal safar oo dukumiinti ah iyo hal tiir oo lagu diiwaan geliyay in boostada ku jirta erey gaar ah (tusaale, diidmo ama gaadiid) . Marka xigta, koox ka kooban kalkaaliyayaal cilmi-baaris ayaa gacanta ku calaamadiyay dareenka sawirada. Kadibna, waxay isticmaaleen xogta la calaamadeeyay ee loo adeegsanayo inay abuuraan habka wax lagu barto mashiinka wax-ka-beddelka ah oo laga yaabo in ay ka fakaraan dareenka boostada ku salaysan sifooyinka. Ugu dambeyntii, waxay isticmaaleen qaabkan si ay u qiyaasaan dareenka dhan 11 malyan oo boosteejo ah.

Sidaa darteed, halkii ay ka ahaan lahaayeen manhajka akhriska iyo calaamadinta 11 malyan oo boosto ah - taas oo noqon lahayd mid aan suurtogal ahayn - Boqorka iyo asxaabtu waxay si cad u muujiyeen tiro yar oo tiradoodu ah kadibna loo isticmaalo barbaarinta kormeerka si loo qiyaaso sumcadda dhammaan xarumaha. Kadib markii ay dhamaystireen falanqayntan, waxay awoodeen in ay soo gabagabeeyaan in, waxoogaa la yaab leh, suurtagalnimada in boosteejo la tirtiro ayan ku xirnayn in ay dawlad-goboleed ama taageerid dawlad-goboleed.

Jaantuska 2.5: Nidaamka fudud ee nidaamka loo adeegsado King, Ban, iyo Roberts (2013) si loo qiyaaso dareenka 11 milyan ee warbaahinta bulshada ee Shiinaha. Marka hore, tallaabo horudhac ah, cilmi-baarayaashu waxay beddeleen jadwalka warbaahinta bulshada si ay u noqdaan qoraallo ku-qoran (eeg Grimmer iyo Stewart (2013) si aad u hesho macluumaad dheeraad ah). Marka labaad, waxay ku calaamadeeyeen waxyaabihii laga soo qaaday sawir yar. Saddexaad, waxa ay tababar ku qaateen habka waxbarasho ee kormeerka ah si loo kala saaro kalsoonida posts. Afar meelood, waxay isticmaaleen habka waxbarasho ee kormeerka ah si loo qiyaaso dareenka dhammaan qaybaha. Fiiri King, Pan, iyo Roberts (2013), lifaaqa B ee sharaxaad faahfaahsan.

Jaantuska 2.5: Nidaamka fudud ee nidaamka loo adeegsado King, Pan, and Roberts (2013) si loo qiyaaso dareenka 11 milyan ee warbaahinta bulshada ee Shiinaha. Marka hore, tallaabo horudhac ah, cilmi-baarayaashu waxay beddeleen jadwalka warbaahinta bulshada si ay u noqdaan qoraallo ku-qoran (eeg Grimmer and Stewart (2013) si aad u hesho macluumaad dheeraad ah). Marka labaad, waxay ku calaamadeeyeen waxyaabihii laga soo qaaday sawir yar. Saddexaad, waxa ay tababar ku qaateen habka waxbarasho ee kormeerka ah si loo kala saaro kalsoonida posts. Afar meelood, waxay isticmaaleen habka waxbarasho ee kormeerka ah si loo qiyaaso dareenka dhammaan qaybaha. Fiiri King, Pan, and Roberts (2013) , lifaaqa B ee sharaxaad faahfaahsan.

Ugu dambeyn, Boqorka iyo saaxiibada ayaa ogaaday in kaliya saddex nooc oo posts ay si joogto ah censored: pornography, dhaleeceynta canshurta, iyo kuwa lahaa awood suurta gal buuxda ah (ie, suurtogalnimada in ay keenaan dibad-bax ballaaran). Marka la eego tiro badan oo ka mid ah qoraallada la tirtiray iyo kuwa aan la tirtirin, Boqorka iyo asxaabtiisuba waxay awoodeen inay bartaan sida faaiidooyinka ay u shaqeeyaan kaliya iyagoo daawanaya iyo tirinta. Intaa ka sokow, ka doodista mawduucda ku jirta buugan, habka kormeerka waxbarasho ee ay isticmaalaan-gacmo-calaamadaynta qaar ka mid ah natiijooyinka iyo ka dibna dhisaan habka mashiinka wax lagu barto si loogu calaamadiyo dib u soo noqoshada inay noqoto mid caan ku ah cilmi-baarista bulshada ee da'da digital . Waxaad arki doontaa sawirro aad u la mid ah sawirka 2.5 ee cutubyada 3 (Su'aalaha weydiinta) iyo 5 (Abuuritaanka wada shaqaynta); Tani waa mid ka mid ah fikradaha yar ee ka muuqda cutubyada badan.

Tusaalooyinkan - dabeecadaha shaqada ee darawalayaasha taksiyada ee New York iyo habdhaqanka faafaahinta warbaahinta bulshada ee dowladda Shiinaha - ayaa muujinaya in tirakoobka fudud ee ilaha xogta waaweyn, xaaladaha qaarkood, keenaan cilmi baaris xiiso leh oo muhiim ah. Labada xaaladoodba, si kastaba ha ahaatee, cilmi baarayaashu waa inay su'aalo xiiso leh u keenaan ilaha xogta weyn; xogta keligeed ma ahayn mid ku filan.