### 2.4.1 kirgawa abubuwa

Simple kirgawa iya zama da ban sha'awa idan ka hada da mai kyau tambaya da kyau data.

Kodayake an lalata shi cikin harshe mai mahimmanci, yawancin bincike na zamantakewa shine kawai ƙidayar abubuwa. A cikin shekaru masu girma bayanai, masu bincike zasu iya ƙidayar fiye da kowane lokaci, amma wannan ba yana nufin cewa ya kamata su fara fara kirgawa ba. Maimakon haka, masu bincike zasu tambayi: Mene ne yake da daraja? Wannan yana iya zama kamar abu ne na gaba ɗaya, amma akwai wasu alamomi.

Sau da yawa dalibai suna motsa binciken binciken su ta hanyar cewa: Zan karanta wani abu wanda babu wanda ya taɓa ƙidaya kafin. Alal misali, ɗalibai za su iya cewa mutane da yawa sunyi nazarin baƙi kuma mutane da yawa sunyi nazarin ma'aurata, amma babu wanda ya yi nazarin ma'aurata. A cikin kwarewa, wannan dabarun, wanda na kira motsi ta rashi , ba yakan haifar da bincike mai kyau. Motsa jiki ta rashi ba shi da wata ma'ana cewa akwai rami a can, kuma zan yi aiki sosai don cika shi. Amma ba kowane rami ya kamata a cika.

Maimakon motsawa ba tare da rashi ba, ina tsammanin mafi kyau dabarun shine neman tambayoyin bincike waɗanda suke da mahimmanci ko ban sha'awa (ko dukansu biyu). Duk waɗannan kalmomi suna da wuya a ayyana, amma wata hanya ta yin tunani game da bincike mai mahimmanci shine cewa yana da tasiri mai tasiri ko kuma yana ciyarwa cikin shawarar mai muhimmanci ta masu tsara manufofi. Alal misali, auna ma'aunin rashin aikin yi yana da muhimmanci saboda yana nuna alamar tattalin arzikin da ke tafiyar da shawarwarin manufofin. Kullum, ina tsammanin masu bincike suna da kyakkyawar ma'ana ga abin da ke da muhimmanci. Don haka, a cikin wannan sashe, zan bayar da misalai guda biyu inda ina tsammanin kirgawa yana da ban sha'awa. A kowane hali, masu bincike ba su ƙidayar ƙyama; Maimakon haka, suna cikin ƙididdigar musamman da suka nuna muhimmancin fahimtar ra'ayoyi da yawa game da yadda tsarin zamantakewa ke aiki. A wasu kalmomi, abubuwa da dama da ke sa wadannan ƙididdigar suna nuna ban sha'awa ba bayanai ba ne, ya zo ne daga waɗannan ra'ayoyin ra'ayi mafi yawa.

Ɗaya daga cikin misalai na ƙarfin ƙididdigewa ya zo ne daga binciken Henry Farber na (2015) game da halayyar direbobi na taksi na New York City. Kodayake wannan rukunin ba zai iya jin dadi mai ban sha'awa ba, yana da hanyar bincike don nazarin gwaji guda biyu a cikin tattalin arziki. Don dalilai na binciken Farber, akwai abubuwa biyu masu muhimmanci game da yanayin aiki na direbobi na taksi: (1) hajin kuɗin kowannensu yana gudana daga rana zuwa rana, bisa ga bangare akan abubuwan kamar yanayin, da kuma (2) yawan lokutan da suke aiki na iya canza kowace rana bisa ga yanke shawara. Waɗannan fasalulluka suna haifar da tambaya mai ban sha'awa game da dangantaka tsakanin hawan lokaci da kuma lokutan aiki. Hanyoyin kaya a cikin tattalin arziki sunyi lura cewa direbobi masu taksi za su yi aiki a kan kwanakin da suke da karbar sakamako mafi girma. A madadin, samfurori daga tattalin arziki na hango hangen nesa daidai. Idan direbobi sun saita wata manufa ta hanyar samun kudin shiga - ka ce $100 a kowace rana - kuma aiki har sai an cika wannan manufa, to, direbobi zasu ƙare aiki kadan a cikin kwanakin da suke samun ƙarin. Alal misali, idan kun kasance mai biyan bashi, zaku iya aiki har hudu a rana mai kyau ($ 25 a kowace awa) da sa'o'i biyar a mummunar rana (\$ 20 a kowace awa). Saboda haka, masu direbobi suna aiki karin sa'o'i a kan kwanakin tare da karbar sa'a mafi girma (kamar yadda tsinkayen neoclassical ya bayyana) ko kuma karin sa'o'i a kwanakin da farashin ƙananan sa'a (kamar yadda aka kwatanta ta hanyar tattalin arziki)?

Don amsa wannan tambayar Farber ta samu bayanai game da kowane taksi na taksi da New York City cabs ya yi daga 2009 zuwa 2013, bayanan da yanzu suna samuwa. Wadannan bayanai-waɗanda aka tattara ta hanyar lantarki lantarki cewa birnin yana buƙatar taksi don amfani-hada da bayanai game da kowane tafiya: fara lokaci, fara wuri, ƙarshen lokaci, wurin ƙarshe, kudin tafiya, da tip (idan an biya tip tare da katin bashi) . Amfani da wannan takardun mita mita, Farber ya gano cewa mafi yawan direbobi suna aiki fiye da kwanakin lokacin da ƙidayar suka fi girma, daidai da ka'idar neoclassical.

Bugu da ƙari, ga wannan babban binciken, Farber ya iya amfani da girman bayanai don ƙarin fahimtar ilmantarwa da tsauri. Ya gano cewa, a tsawon lokaci, sababbin direbobi suna koyon yin aiki na karin sa'o'i a kan kwanakin sakamako masu girma (misali, suna koyon zama kamar yadda samfurori neoclassical modelic) suke. Kuma sababbin direbobi da suka kasance masu kama da wadanda suke da farashi suna da karfin barin masu motsi. Duk waɗannan binciken da ya fi dacewa, wanda zai taimaka wajen bayyana halin da ake lura da direbobi na yanzu, sun yiwu ne saboda girman dataset. Ba su yiwuwa a gano a baya binciken da suka yi amfani da takarda takarda na takarda daga ƙananan direbobi na taksi a kan ɗan gajeren lokaci (Camerer et al. 1997) .

Nazarin Farber na kusa da wani labari mafi kyau ga bincike ta hanyar amfani da babban bayanan bayanan saboda bayanan da aka tattara ta birni sun kasance kusa da bayanan da Farber zai tattara (wani bambanci shine Farber zai so bayanai a kan duka albashi da karin kayan aiki-amma bayanan birni sun haɗa da takardun da aka biya ta katin bashi). Duk da haka, bayanai bai isa ba. Maɓallin aikin bincike na Farber ya kawo tambaya mai ban sha'awa ga bayanan, wani tambaya da ke da nasaba da abubuwan da suka wuce fiye da wannan tsari na musamman.

Misali na biyu na ƙidayar abubuwa ya fito ne daga binciken da Gary King, Jennifer Pan, da Molly Roberts (2013) a kan labaran yanar gizon kasar Sin. A wannan yanayin, duk da haka, masu bincike sun tattara abubuwan da suka dace da su kuma dole ne su magance gaskiyar cewa bayanai ba su cika ba.

Abokan Sarki da abokan aiki sun tilastawa da cewa ana amfani da wata sanarwa da ke cikin labaran watsa labarun da ke cikin kasar Sin ta hanyar wata babbar na'urar da ake zaton sun hada da dubban mutane. Masu bincike da kuma 'yan ƙasa, duk da haka, basu da hankali game da yadda waɗannan ƙirar suka yanke shawara game da abubuwan da za a share su. Masana kimiyya na Sin suna da tsammanin tsammanin abin da za a iya share su. Wadansu suna tunanin cewa censors suna mayar da hankali a kan matsalolin da ke da mahimmanci ga jihar, yayin da wasu suna tunanin cewa suna mayar da hankali ga tashoshin da suke karfafa haɗin kai, irin su boren. Tattaunawa daga wa] annan tsammanin yana da tasiri game da yadda masu bincike suka fahimci {asar China da sauran gwamnatoci na gwamnati da suka shiga aikin bincike. Saboda haka, Sarki da abokan aiki sun so su kwatanta abubuwan da aka buga kuma daga bisani an share su tare da sakon da aka buga kuma ba a taɓa share su ba.

Tattara wadannan posts hannu ban mamaki injiniya feat na rarrafe fiye da 1,000 na kasar Sin da kafofin watsa labarun yanar-kowa da daban-daban page shimfidu-gano dacewa posts, sa'an nan kuma revisiting wadannan posts ga abin da aka baya share. Baya ga al'ada injiniya matsaloli hade tare da manyan sikelin yanar gizo-rarrafe, wannan aikin yana da kara kalubale da cewa shi da ake bukata ya zama musamman m saboda mutane da yawa tace posts suna kwankwance a kasa da 24 hours. A wasu kalmomin, wani jinkirin crawler zai miss kuri'a na posts da aka tace. Bugu da ari, crawlers ya yi duk wannan data tarin yayin sunã kangẽwa ganewa har kafofin watsa labarun yanar toshe hanya ko in ba haka ba su canja manufofin a mayar da martani ga binciken.

A lokacin da aka kammala wannan aikin injiniya, Sarki da abokan aiki sun samu kimanin miliyoyin mahalli a kan batutuwa 85 da aka tsara, kowannensu yana da matsayi na ƙwarewa. Alal misali, wata mahimmanci na halayen halayya shine Ai Weiwei, dan wasan kwaikwayo; wata mahimmanci na ƙwarewa ta tsakiya shine godiya da darajar kudin kasar Sin, kuma batun batutuwan rashin hankali shine gasar cin kofin duniya. Daga cikin wa] annan ku] a] en, miliyan dubu] aya, kimanin miliyan 2 ne aka kula da su. Ba abin mamaki ba ne, Sarki da abokan aiki sun gano cewa a kan abubuwan da ke da matukar damuwa a kan abubuwan da ke da matukar damuwa da yawa kawai fiye da sau da yawa akan batutuwa a kan batutuwa masu mahimmanci. A wasu kalmomi, censors na kasar Sin suna da alaƙa suna daukar hoto a matsayin mai suna Ai Weiwei a matsayin wakilin da ke magana game da gasar cin kofin duniya. Wadannan binciken ba su goyi bayan ra'ayin cewa kullun gwamnati suna aiki a kan batutuwa masu mahimmanci ba.

Wannan ƙididdigar sauƙi na ƙididdigar lissafi ta hanyar batu zai iya yaudara, duk da haka. Alal misali, gwamnati za ta iya yin amfani da ginshiƙan da ke goyon bayan Ai Weiwei, amma barin wuraren da ke da mahimmanci ga shi. Domin rarrabe tsakanin posts more hankali, da masu bincike da ake bukata a mataki na jin zuciya daga kowane post. Abin takaici, duk da aikin da yawa, hanyoyin da aka sarrafa ta atomatik na ganewar jin dadi ta amfani da dictionaries da aka riga sun kasance ba a da kyau a lokuta da yawa (tunanin komawa ga matsalolin samar da lokaci na tunanin ranar 11 ga Satumba, 2001 aka bayyana a sashi na 2.3.9). Saboda haka, sarki da abokan aiki suna buƙatar hanyar da za su sanya sunayensu na kafofin watsa labaran su miliyan 11 don sanin ko sun kasance (1) suna da mahimmanci ga jihar, (2) goyon bayan jihar, ko (3) ba daidai ba ko kuma ainihin rahotanni game da abubuwan da suka faru. Wannan sauti kamar m aiki, amma suka warware shi ta amfani da wani iko da zamba da cewa shi ne na kowa a data kimiyya amma gwada da rare a zaman kimiyya: dubawa koyo. duba siffar 2.5.

Da farko, a wani mataki wanda ake kira preprocessing , masu bincike sun canza adireshin kafofin watsa labarun zuwa cikin matakan da aka rubuta , lokacin da akwai jere guda ɗaya ga kowanne takardu da shafi ɗaya wanda ya rubuta ko sakon ya ƙunshi kalma ɗaya (misali, nuna rashin amincewa ko zirga-zirga) . Gaba kuma, ƙungiyar masu taimakawa na bincike suna sanya hannu a kan zane na samfurin. Bayan haka, sun yi amfani da wannan bayanan da aka sanya hannu don ƙirƙirar samfurin koyo na na'ura wanda zai iya haifar da jinin wani sakon da ya danganci halaye. A ƙarshe, sun yi amfani da wannan samfurin don kiyasta jinin kowane nau'in mota 11.

Saboda haka, maimakon karantawa da lakabi da lissafin tallace-tallace na 11 - wanda zai zama wanda ba zai yiwu ba - Sarki da abokan aiki da hannu tare da ƙididdigar ƙananan ginshiƙai sannan kuma amfani da ilmantarwa akan ƙaddamar da jinin waɗannan al'amurran. Bayan kammala wannan bincike, sun iya cewa, abin mamaki, yiwuwar wani mukamin da aka share shi ba shi da alaka da ko yana da mahimmanci ga jihar ko goyon bayan jihar.

A ƙarshe, Sarki da abokan aiki sun gano cewa kawai abubuwa uku ne kawai aka lalata su: batsa, sukar censors, da wadanda ke da damar aiki (watau yiwuwar haifar da zanga-zangar masu girma). Ta hanyar lura da adadin ayyukan da aka share da kuma matsaloli waɗanda ba a goge su ba, Sarki da abokan aiki sun iya koyi yadda ma'anar censors ke aiki kawai ta kallon da kirgawa. Bugu da ari, ƙaddamar da batun da zai faru a cikin wannan littafi, ƙwarewar ilmantarwa da suke amfani da su-rubutun hannu-hannu da wasu sakamako sannan kuma gina tsari na ilmantarwa na na'ura don yin la'akari da juyawa masu zuwa don zama na kowa a cikin binciken zamantakewa a cikin shekarun dijital . Za ka ga hotuna da kama da siffar 2.5 a cikin surori 3 (Tambayoyi) da 5 (Samar da haɗin gwiwar); Wannan shine daya daga cikin 'yan ra'ayoyin da suka bayyana a cikin naurori masu yawa.

Wadannan misalai-aikin aiki na direbobi na taksi a New York da kuma labarun yada labaru na gwamnatin kasar Sin - ya nuna cewa sauƙin ƙididdigar manyan mashigin bayanai na iya, a wasu yanayi, haifar da bincike mai ban sha'awa da muhimmanci. A lokuta biyu, duk da haka, masu bincike sun kawo tambayoyi masu ban sha'awa ga babban asusun bayanai; bayanan da kansa bai isa ba.