2.4.1 ਗਿਣਤੀ ਕੁਝ

ਇਹ ਅਨੁਵਾਦ ਇੱਕ ਕੰਪਿਊਟਰ ਦੁਆਰਾ ਬਣਾਇਆ ਗਿਆ ਸੀ. ×

2.4.1 ਗਿਣਤੀ ਕੁਝ

ਜੇਕਰ ਤੁਹਾਨੂੰ ਚੰਗਾ ਡਾਟਾ ਨਾਲ ਇੱਕ ਚੰਗਾ ਸਵਾਲ ਹੈ ਜੋੜ ਸਧਾਰਨ ਗਿਣਤੀ ਦਿਲਚਸਪ ਹੋ ਸਕਦਾ ਹੈ.

ਭਾਵੇਂ ਕਿ ਇਹ ਵਧੀਆ ਢੰਗ ਨਾਲ ਬੋਲਣ ਵਾਲੀ ਭਾਸ਼ਾ ਵਿਚ ਜੁੜਿਆ ਹੋਇਆ ਹੈ, ਬਹੁਤ ਸਾਰੇ ਸਮਾਜਿਕ ਖੋਜ ਅਸਲ ਵਿਚ ਚੀਜ਼ਾਂ ਦੀ ਗਿਣਤੀ ਕਰ ਰਿਹਾ ਹੈ. ਵੱਡੇ ਅੰਕੜਿਆਂ ਦੀ ਉਮਰ ਵਿੱਚ, ਖੋਜਕਰਤਾ ਪਹਿਲਾਂ ਨਾਲੋਂ ਕਿਤੇ ਵੱਧ ਗਿਣਤੀ ਕਰ ਸਕਦੇ ਹਨ, ਪਰ ਇਸ ਦਾ ਇਹ ਮਤਲਬ ਨਹੀਂ ਹੈ ਕਿ ਉਹਨਾਂ ਨੂੰ ਅਸਾਧਾਰਣ ਢੰਗ ਨਾਲ ਗਿਣਨਾ ਸ਼ੁਰੂ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ. ਇਸ ਦੀ ਬਜਾਏ, ਖੋਜਕਾਰਾਂ ਨੂੰ ਇਹ ਪੁੱਛਣਾ ਚਾਹੀਦਾ ਹੈ: ਕਿਹੜੀਆਂ ਚੀਜ਼ਾਂ ਦੀ ਗਿਣਤੀ ਹੈ? ਇਹ ਇੱਕ ਪੂਰੀ ਤਰ੍ਹਾਂ ਵਿਅਕਤੀਗਤ ਮਾਮੂਲੀ ਜਾਪਦੀ ਹੈ, ਪਰ ਕੁਝ ਆਮ ਪੈਟਰਨ ਹਨ.

ਅਕਸਰ ਵਿਦਿਆਰਥੀ ਆਪਣੀ ਗਣਨਾ ਖੋਜ ਨੂੰ ਇਹ ਕਹਿੰਦੇ ਹੋਏ ਪ੍ਰੇਰਿਤ ਕਰਦੇ ਹਨ: ਮੈਂ ਉਸ ਚੀਜ਼ ਦੀ ਗਿਣਤੀ ਕਰਨ ਜਾ ਰਿਹਾ ਹਾਂ ਜਿਹੜਾ ਪਹਿਲਾਂ ਕਦੇ ਵੀ ਗਿਣਿਆ ਨਹੀਂ ਗਿਆ. ਉਦਾਹਰਣ ਵਜੋਂ, ਇੱਕ ਵਿਦਿਆਰਥੀ ਕਹਿ ਸਕਦਾ ਹੈ ਕਿ ਬਹੁਤ ਸਾਰੇ ਲੋਕਾਂ ਨੇ ਪਰਵਾਸੀਆਂ ਦਾ ਅਧਿਐਨ ਕੀਤਾ ਹੈ ਅਤੇ ਬਹੁਤ ਸਾਰੇ ਲੋਕਾਂ ਨੇ ਜੌੜੇ ਦਾ ਅਧਿਐਨ ਕੀਤਾ ਹੈ, ਪਰ ਕਿਸੇ ਨੇ ਪ੍ਰਵਾਸੀ ਜੋੜਿਆਂ ਦਾ ਅਧਿਐਨ ਨਹੀਂ ਕੀਤਾ ਹੈ ਮੇਰੇ ਅਨੁਭਵ ਵਿੱਚ, ਇਹ ਰਣਨੀਤੀ, ਜਿਸ ਨੂੰ ਮੈਂ ਗੈਰਹਾਜ਼ਰੀ ਦੁਆਰਾ ਪ੍ਰੇਰਿਤ ਕਰਦਾ ਹਾਂ, ਆਮਤੌਰ ਤੇ ਚੰਗੀ ਖੋਜ ਵੱਲ ਨਹੀਂ ਜਾਂਦਾ ਗੈਰ ਹਾਜ਼ਰੀ ਦੁਆਰਾ ਪ੍ਰੇਰਣਾ ਇਹ ਕਹਿ ਰਹੀ ਹੈ ਕਿ ਇੱਥੇ ਇੱਕ ਮੋਰੀ ਹੈ, ਅਤੇ ਮੈਂ ਇਸਨੂੰ ਭਰਨ ਲਈ ਬਹੁਤ ਮਿਹਨਤ ਕਰਨ ਜਾ ਰਿਹਾ ਹਾਂ ਪਰ ਹਰ ਮੋਰੀ ਨੂੰ ਭਰਨ ਦੀ ਲੋੜ ਨਹੀਂ.

ਗ਼ੈਰ-ਹਾਜ਼ਰੀ ਦੁਆਰਾ ਪ੍ਰੇਰਿਤ ਕੀਤੇ ਜਾਣ ਦੀ ਬਜਾਏ, ਮੈਂ ਸੋਚਦਾ ਹਾਂ ਕਿ ਇਕ ਬਿਹਤਰ ਰਣਨੀਤੀ ਹੈ ਖੋਜ ਦੇ ਸਵਾਲਾਂ ਨੂੰ ਲੱਭਣਾ ਜੋ ਮਹੱਤਵਪੂਰਨ ਜਾਂ ਦਿਲਚਸਪ ਹਨ (ਜਾਂ ਆਦਰਸ਼ਕ ਤੌਰ ਤੇ ਦੋਵੇਂ). ਇਨ੍ਹਾਂ ਦੋਨਾਂ ਸ਼ਬਦਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਲਈ ਇੱਕ ਬਿੱਟ ਔਖਾ ਹੈ, ਪਰ ਮਹੱਤਵਪੂਰਣ ਖੋਜ ਬਾਰੇ ਸੋਚਣ ਦਾ ਇਕ ਤਰੀਕਾ ਇਹ ਹੈ ਕਿ ਨੀਤੀ ਨਿਰਮਾਤਾ ਦੁਆਰਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਫੈਸਲੇ ਵਿੱਚ ਇਸਦੇ ਕੁਝ ਮਾਪਣਯੋਗ ਪ੍ਰਭਾਵ ਜਾਂ ਫੀਡ ਹੁੰਦੇ ਹਨ. ਉਦਾਹਰਣ ਵਜੋਂ, ਬੇਰੁਜ਼ਗਾਰੀ ਦੀ ਦਰ ਨੂੰ ਮਾਪਣਾ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਇਹ ਅਰਥ ਵਿਵਸਥਾ ਦਾ ਸੰਕੇਤ ਹੈ ਜੋ ਨੀਤੀ ਸਬੰਧੀ ਫੈਸਲਿਆਂ ਨੂੰ ਚਲਾਉਂਦਾ ਹੈ. ਆਮ ਤੌਰ 'ਤੇ, ਮੈਨੂੰ ਲਗਦਾ ਹੈ ਕਿ ਖੋਜਕਰਤਾਵਾਂ ਕੋਲ ਇੱਕ ਮਹੱਤਵਪੂਰਣ ਗੱਲ ਹੈ ਜੋ ਮਹੱਤਵਪੂਰਨ ਹੈ ਇਸ ਲਈ, ਬਾਕੀ ਦੇ ਭਾਗ ਵਿੱਚ, ਮੈਂ ਦੋ ਉਦਾਹਰਣਾਂ ਪ੍ਰਦਾਨ ਕਰਨ ਜਾ ਰਿਹਾ ਹਾਂ ਜਿੱਥੇ ਮੈਂ ਸੋਚਦਾ ਹਾਂ ਕਿ ਗਿਣਤੀ ਬਹੁਤ ਦਿਲਚਸਪ ਹੈ. ਹਰ ਇੱਕ ਮਾਮਲੇ ਵਿੱਚ, ਖੋਜਕਰਤਾ ਅਲੋਚਨਾ ਦੀ ਗਿਣਤੀ ਨਹੀਂ ਕਰ ਰਹੇ ਸਨ; ਨਾ ਕਿ, ਉਹ ਬਹੁਤ ਹੀ ਵਿਸ਼ੇਸ਼ ਸਥਿਤੀਆਂ ਵਿੱਚ ਗਿਣਤੀ ਕਰ ਰਹੇ ਸਨ ਜਿਸ ਨੇ ਸਮਾਜਿਕ ਪ੍ਰਣਾਲੀਆਂ ਦੇ ਕੰਮ ਬਾਰੇ ਹੋਰ ਆਮ ਵਿਚਾਰਾਂ ਵਿੱਚ ਅਹਿਮ ਜਾਣਕਾਰੀ ਦਿੱਤੀ. ਦੂਜੇ ਸ਼ਬਦਾਂ ਵਿਚ, ਜਿਸ ਨੂੰ ਇਹ ਖਾਸ ਗਿਣਤ ਅਭਿਆਸ ਨੂੰ ਦਿਲਚਸਪ ਬਣਾ ਦਿੰਦਾ ਹੈ, ਉਹ ਬਹੁਤ ਸਾਰਾ ਡਾਟਾ ਨਹੀਂ ਹੈ, ਇਹ ਇਹਨਾਂ ਹੋਰ ਆਮ ਵਿਚਾਰਾਂ ਤੋਂ ਆਉਂਦੀ ਹੈ.

ਕਾੱਰਤ ਦੀ ਸਾਧਾਰਨ ਸ਼ਕਤੀ ਦਾ ਇੱਕ ਉਦਾਹਰਨ ਹੈਨਰੀ ਫਾਰਬਰਜ਼ (2015) ਨਿਊਯਾਰਕ ਸਿਟੀ ਟੈਕਸੀ ਚਾਲਕਾਂ ਦੇ ਵਿਹਾਰ ਦੇ ਅਧਿਐਨ ਤੋਂ ਆਉਂਦਾ ਹੈ. ਹਾਲਾਂਕਿ ਇਹ ਗਰੁੱਪ ਅਸਲ ਵਿਚ ਦਿਲਚਸਪ ਨਹੀਂ ਬੋਲ ਸਕਦਾ, ਪਰ ਇਹ ਕਿਰਤ ਅਰਥਸ਼ਾਸਤਰ ਵਿਚ ਦੋ ਮੁਕਾਬਲੇ ਦੇ ਸਿਧਾਂਤਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਇੱਕ ਰਣਨੀਤਕ ਖੋਜ ਸਾਈਟ ਹੈ. ਫਾਰਬਰ ਦੀ ਖੋਜ ਦੇ ਉਦੇਸ਼ਾਂ ਲਈ, ਟੈਕਸੀ ਡਰਾਈਵਰਾਂ ਦੇ ਵਰਕ ਵਾਤਾਵਰਨ ਬਾਰੇ ਦੋ ਮਹੱਤਵਪੂਰਣ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਹਨ: (1) ਉਹਨਾਂ ਦੀ ਘੰਟਾਵਾਰ ਤਨਖਾਹ ਦਿਨ ਪ੍ਰਤੀ ਦਿਨ ਬਦਲਦੀ ਰਹਿੰਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਮੌਸਮ ਜਿਵੇਂ ਕਾਰਕਾਂ ਤੇ ਆਧਾਰਿਤ ਹੈ ਅਤੇ (2) ਉਹਨਾਂ ਦੀ ਘੰਟਿਆਂ ਦੀ ਗਿਣਤੀ ਕੰਮ ਆਪਣੇ ਫ਼ੈਸਲਿਆਂ ਦੇ ਅਧਾਰ ਤੇ ਹਰ ਰੋਜ਼ ਬਦਲ ਸਕਦਾ ਹੈ ਇਹ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਘੰਟਿਆਂ ਦੇ ਤਨਖ਼ਾਹਾਂ ਅਤੇ ਘੰਟਿਆਂ ਦੇ ਵਿਚਕਾਰ ਸਬੰਧਾਂ ਬਾਰੇ ਦਿਲਚਸਪ ਸਵਾਲ ਪੈਦਾ ਕਰਦੀਆਂ ਹਨ ਅਰਥਸ਼ਾਸਤਰ ਵਿੱਚ ਨੂਲੇਲੈਸਿਕ ਮਾੱਡਲਾਂ ਦਾ ਅੰਦਾਜ਼ਾ ਹੈ ਕਿ ਟੈਕਸੀ ਡਰਾਈਵਰ ਦਿਨੋਂ ਵੱਧ ਕੰਮ ਕਰਨਗੇ ਜਿੱਥੇ ਉਹਨਾਂ ਕੋਲ ਵੱਧ ਤਨਖਾਹ ਵਾਲੇ ਮਜ਼ਦੂਰੀ ਹੋਣ. ਵਿਕਲਪਕ ਤੌਰ ਤੇ, ਵਿਵਹਾਰਿਕ ਅਰਥਸ਼ਾਸਤਰ ਦੇ ਮਾਡਲਾਂ ਦਾ ਅਨੁਮਾਨ ਬਿਲਕੁਲ ਉਲਟ ਹੁੰਦਾ ਹੈ. ਜੇ ਡ੍ਰਾਈਵਰ ਕਿਸੇ ਖਾਸ ਆਮਦਨੀ ਦਾ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦੇ ਹਨ - ਤਾਂ ਹਰ ਰੋਜ਼ $ 100 ਦਾ ਕਹਿਣਾ ਹੈ-ਅਤੇ ਉਦੋਂ ਤਕ ਕੰਮ ਕਰੋ ਜਦੋਂ ਤੱਕ ਇਹ ਟੀਚਾ ਪੂਰਾ ਨਹੀਂ ਹੋ ਜਾਂਦਾ, ਫਿਰ ਡ੍ਰਾਈਵਰ ਘੱਟ ਤੋਂ ਘੱਟ ਕੰਮ ਕਰਨ ਦੇ ਦਿਨ ਨੂੰ ਖਤਮ ਕਰ ਦੇਣਗੇ, ਜਦੋਂ ਉਹ ਵੱਧ ਤੋਂ ਵੱਧ ਕਮਾਈ ਕਰ ਰਹੇ ਹਨ. ਉਦਾਹਰਣ ਵਜੋਂ, ਜੇ ਤੁਸੀਂ ਨਿਸ਼ਾਨਾ ਕਮਾਈਕਰਤਾ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਇੱਕ ਚੰਗੇ ਦਿਨ ($ 25 ਪ੍ਰਤੀ ਘੰਟੇ) ਤੇ ਚਾਰ ਘੰਟੇ ਅਤੇ ਇੱਕ ਬੁਰਾ ਦਿਨ ($ 20 ਪ੍ਰਤੀ ਘੰਟਾ) ਤੇ ਪੰਜ ਘੰਟੇ ਖਤਮ ਕਰ ਸਕਦੇ ਹੋ. ਇਸ ਲਈ, ਕੀ ਡ੍ਰਾਈਵਰਾਂ ਦਿਨਾਂ ਵਿੱਚ ਵੱਧ ਤਨਖਾਹ ਵਾਲੀ ਤਨਖਾਹ (ਜਿਵੇਂ ਨੈੋਕਲਸਿਕ ਮਾਡਲਾਂ ਦੁਆਰਾ ਅੰਦਾਜ਼ਾ ਲਗਾਇਆ ਗਿਆ ਹੈ) ਜਾਂ ਘੱਟ ਘੰਟਾਵਾਰ ਤਨਖਾਹ (ਜਿਵੇਂ ਕਿ ਵਿਹਾਰਕ ਆਰਥਿਕ ਮਾਡਲਾਂ ਦੁਆਰਾ ਪਹਿਲਾਂ ਤੋਂ ਅੰਦਾਜ਼ਾ ਲਗਾਇਆ ਗਿਆ) ਵਾਲੇ ਦਿਨ ਜ਼ਿਆਦਾ ਘੰਟੇ ਕੰਮ ਕਰਦੇ ਹਨ?

ਇਸ ਸਵਾਲ ਦਾ ਜਵਾਬ ਦੇਣ ਲਈ ਫੇਰਬਰ ਨੇ 2009 ਤੋਂ 2013 ਤਕ ਨਿਊਯਾਰਕ ਸਿਟੀ ਕੈਬਜ਼ ਦੁਆਰਾ ਲਏ ਗਏ ਹਰੇਕ ਟੈਕਸੀ ਸਫ਼ਰ 'ਤੇ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਜੋ ਹੁਣ ਜਨਤਕ ਤੌਰ' ਤੇ ਉਪਲਬਧ ਹਨ. ਇਹ ਡੇਟਾ - ਜਿਨ੍ਹਾਂ ਨੂੰ ਇਲੈਕਟ੍ਰਾਨਿਕ ਮੀਟਰਾਂ ਦੁਆਰਾ ਇਕੱਤਰ ਕੀਤਾ ਗਿਆ ਸੀ, ਨੂੰ ਸ਼ਹਿਰ ਦੀ ਵਰਤੋਂ ਲਈ ਟੈਕਸੀਆਂ ਦੀ ਜ਼ਰੂਰਤ ਹੈ- ਹਰ ਯਾਤਰਾ ਬਾਰੇ ਜਾਣਕਾਰੀ: ਸ਼ੁਰੂਆਤੀ ਸਮਾਂ, ਸ਼ੁਰੂਆਤੀ ਸਥਾਨ, ਸਮਾਪਤੀ ਸਮੇਂ, ਅੰਤਮ ਸਥਾਨ, ਕਿਰਾਏ ਅਤੇ ਟਿਪ (ਜੇ ਪੈਸੇ ਦੀ ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਨਾਲ ਅਦਾਇਗੀ ਕੀਤੀ ਗਈ ਸੀ) . ਇਸ ਟੈਕਸੀ ਮੀਟਰ ਡੈਟਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਫਾਰਬਰ ਨੇ ਪਾਇਆ ਕਿ ਜ਼ਿਆਦਾਤਰ ਡ੍ਰਾਈਵਰ ਦਿਨਾਂ ਤੇ ਜ਼ਿਆਦਾ ਕੰਮ ਕਰਦੇ ਹਨ ਜਦੋਂ ਤਨਖਾਹ ਉੱਚੇ ਹੁੰਦੇ ਹਨ, ਜੋ ਨੋਸੋਲਾਸੀਕਲ ਥਿਊਰੀ ਨਾਲ ਮੇਲ ਖਾਂਦੀਆਂ ਹਨ.

ਇਸ ਮੁੱਖ ਲੱਭਤ ਤੋਂ ਇਲਾਵਾ, ਫਾਰਬਰ ਵਿਭਿੰਨਤਾ ਅਤੇ ਗਤੀਸ਼ੀਲਤਾ ਦੀ ਬਿਹਤਰ ਸਮਝ ਲਈ ਡਾਟਾ ਦਾ ਆਕਾਰ ਵਰਤਣ ਦੇ ਯੋਗ ਸੀ. ਉਸ ਨੇ ਦੇਖਿਆ ਕਿ ਸਮੇਂ ਦੇ ਨਾਲ ਨਾਲ, ਨਵੇਂ ਡ੍ਰਾਈਵਰ ਹੌਲੀ ਹੌਲੀ ਉਚ ਮਜ਼ਦੂਰੀ ਵਾਲੇ ਦਿਨ ਜ਼ਿਆਦਾ ਘੰਟੇ ਕੰਮ ਕਰਨਾ ਸਿੱਖਦੇ ਹਨ (ਉਦਾਹਰਣ ਵਜੋਂ, ਉਹ ਨੋਲਕਾਮਿਕ ਮਾਡਲ ਦੇ ਅਨੁਸਾਰ ਵਿਹਾਰ ਕਰਨਾ ਸਿੱਖਦੇ ਹਨ). ਅਤੇ ਨਵੇਂ ਡ੍ਰਾਈਵਰ ਜਿਹੜੇ ਜ਼ਿਆਦਾ ਤਜ਼ਰਬੇਕਾਰ ਕਮਾਉਣ ਵਾਲਿਆਂ ਵਾਂਗ ਕੰਮ ਕਰਦੇ ਹਨ, ਟੈਕਸੀ ਡਰਾਈਵਰਾਂ ਤੋਂ ਬਾਹਰ ਨਿਕਲਣ ਦੀ ਜ਼ਿਆਦਾ ਸੰਭਾਵਨਾ ਹੈ. ਮੌਜੂਦਾ ਤੇਜ਼ ਰਣਨੀਤੀ ਦੋਨਾਂ, ਜੋ ਕਿ ਮੌਜੂਦਾ ਡ੍ਰਾਈਵਰਾਂ ਦੇ ਆਧੁਨਿਕ ਵਰਤਾਓ ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ, ਕੇਵਲ ਡਾਟਾਸੈਟ ਦੇ ਅਕਾਰ ਦੇ ਕਾਰਨ ਸੰਭਵ ਸੀ. ਉਹ ਪਹਿਲਾਂ ਦੇ ਅਧਿਐਨਾਂ ਦਾ ਪਤਾ ਲਗਾਉਣਾ ਅਸੰਭਵ ਸੀ ਜੋ ਥੋੜੇ ਜਿਹੇ ਸਮੇਂ (Camerer et al. 1997) ਥੋੜ੍ਹੇ ਟੈਕਸੀ ਚਾਲਕਾਂ ਤੋਂ ਕਾਗਜ਼ ਯਾਤਰਾ ਦੀਆਂ ਸ਼ੀਟਾਂ ਦਾ ਇਸਤੇਮਾਲ ਕਰਦੇ ਸਨ.

ਫਾਰਬਰ ਦਾ ਅਧਿਐਨ ਵੱਡੇ ਡਾਟੇ ਦੇ ਸਰੋਤ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਖੋਜ ਲਈ ਇੱਕ ਵਧੀਆ-ਕੇਸ ਦ੍ਰਿਸ਼ ਦੇ ਨੇੜੇ ਸੀ ਕਿਉਂਕਿ ਸ਼ਹਿਰ ਦੁਆਰਾ ਇਕੱਤਰ ਕੀਤੇ ਗਏ ਅੰਕੜੇ ਫਾਰਬਰ ਦੁਆਰਾ ਇਕੱਤਰ ਕੀਤੇ ਗਏ ਡੇਟਾ ਦੇ ਬਹੁਤ ਨੇੜੇ ਸਨ (ਇੱਕ ਅੰਤਰ ਹੈ ਕਿ ਫਾਰਬਰ ਕੁੱਲ ਮਿਲਾ ਕੇ ਡਾਟਾ ਚਾਹੁੰਦਾ ਸੀ ਤਨਖਾਹਾਂ-ਕਿਰਾਏ ਅਤੇ ਸੁਝਾਅ-ਪਰ ਸ਼ਹਿਰ ਦੇ ਵੇਰਵੇ ਵਿਚ ਸਿਰਫ ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਦੁਆਰਾ ਦਿੱਤੇ ਸੁਝਾਅ ਸ਼ਾਮਲ ਹਨ). ਹਾਲਾਂਕਿ, ਸਿਰਫ ਡਾਟਾ ਹੀ ਕਾਫ਼ੀ ਨਹੀਂ ਸੀ. ਫਾਰਬਰ ਦੀ ਖੋਜ ਦੀ ਕੁੰਜੀ ਡੈਟੇ ਨੂੰ ਇਕ ਦਿਲਚਸਪ ਸਵਾਲ ਲਿਆ ਰਹੀ ਸੀ, ਇਕ ਅਜਿਹਾ ਸਵਾਲ ਜਿਸ ਦਾ ਵੱਡੇ ਪ੍ਰਭਾਵ ਸਿਰਫ ਇਸ ਵਿਸ਼ੇਸ਼ ਸੈਟਿੰਗ ਤੋਂ ਪਰੇ ਹੈ.

ਗਿੰਨੀ ਕਿੰਗ, ਜੈਨੀਫਰ ਪਾਨ, ਅਤੇ ਮੌਲੀ ਰੌਬਰਟਸ (2013) ਦੁਆਰਾ ਚੀਨੀ ਸਰਕਾਰ ਦੁਆਰਾ ਆਨਲਾਈਨ ਸੈਂਸਰਸ਼ਿਪ ' ਇਸ ਕੇਸ ਵਿੱਚ, ਪਰ, ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਆਪਣੇ ਵੱਡੇ ਅੰਕੜੇ ਇਕੱਠੇ ਕਰਨੇ ਪੈਂਦੇ ਸਨ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਇਸ ਤੱਥ ਨਾਲ ਨਜਿੱਠਣਾ ਪੈਂਦਾ ਸੀ ਕਿ ਉਨ੍ਹਾਂ ਦਾ ਡੇਟਾ ਅਧੂਰਾ ਹੈ.

ਕਿੰਗ ਅਤੇ ਸਹਿਕਰਮੀਆਂ ਇਸ ਤੱਥ ਤੋਂ ਪ੍ਰੇਰਿਤ ਹੋਈਆਂ ਸਨ ਕਿ ਚੀਨ ਵਿਚ ਸੋਸ਼ਲ ਮੀਡੀਆ ਦੀਆਂ ਪੋਸਟਾਂ ਬਹੁਤ ਪ੍ਰਚਲਿਤ ਉਪਕਰਣ ਦੁਆਰਾ ਸੰਚਾਰਿਤ ਕੀਤੀਆਂ ਗਈਆਂ ਹਨ ਜਿਨ੍ਹਾਂ ਨੂੰ ਹਜ਼ਾਰਾਂ ਲੋਕ ਸ਼ਾਮਲ ਕਰਨ ਦਾ ਵਿਚਾਰ ਹੈ ਹਾਲਾਂਕਿ ਖੋਜਕਰਤਾਵਾਂ ਅਤੇ ਨਾਗਰਿਕਾਂ ਦਾ ਇਸ ਗੱਲ ਦਾ ਕੋਈ ਅਰਥ ਨਹੀਂ ਹੈ ਕਿ ਕਿਵੇਂ ਇਹ ਸੈਂਸਰ ਫ਼ੈਸਲਾ ਕਰਦੇ ਹਨ ਕਿ ਕਿਹੜੀ ਸਮਗਰੀ ਨੂੰ ਮਿਟਾਉਣਾ ਚਾਹੀਦਾ ਹੈ. ਚੀਨ ਦੇ ਵਿਦਵਾਨਾਂ ਵਿੱਚ ਅਸਲ ਵਿੱਚ ਵੱਖੋ-ਵੱਖਰੀਆਂ ਉਮੀਦਾਂ ਹਨ ਕਿ ਕਿਸ ਤਰ੍ਹਾਂ ਦੀਆਂ ਪੋਸਟਾਂ ਨੂੰ ਮਿਟਾਉਣ ਦੀ ਜ਼ਿਆਦਾ ਸੰਭਾਵਨਾ ਹੈ. ਕੁਝ ਸੋਚਦੇ ਹਨ ਕਿ ਸੈਂਸਰ ਉਹ ਅਹੁਦਿਆਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਤ ਕਰਦੇ ਹਨ ਜੋ ਰਾਜ ਦੀ ਨੁਕਤਾਚੀਨੀ ਕਰਦੇ ਹਨ, ਜਦਕਿ ਦੂਸਰੇ ਸੋਚਦੇ ਹਨ ਕਿ ਉਹ ਉਨ੍ਹਾਂ ਪੋਸਟਾਂ' ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਤ ਕਰਦੇ ਹਨ ਜੋ ਸਮੂਹਿਕ ਵਿਵਹਾਰ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦੀਆਂ ਹਨ, ਜਿਵੇਂ ਕਿ ਰੋਸ ਇਹ ਅਨੁਮਾਨ ਲਗਾਉਣਾ ਹੈ ਕਿ ਇਹਨਾਂ ਵਿਚੋਂ ਕਿਹੜੀਆਂ ਆਸਾਂ ਸਹੀ ਹਨ, ਇਸ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਖੋਜਕਰਤਾ ਚੀਨ ਅਤੇ ਹੋਰ ਤਾਨਾਸ਼ਾਹੀ ਸਰਕਾਰਾਂ ਨੂੰ ਕਿਵੇਂ ਸਮਝਦੇ ਹਨ ਜੋ ਸੈਂਸਰਸ਼ਿਪ ਵਿਚ ਸ਼ਾਮਲ ਹਨ. ਇਸ ਲਈ, ਰਾਜਾ ਅਤੇ ਸਾਥੀ ਉਹਨਾਂ ਪੋਸਟਾਂ ਦੀ ਤੁਲਨਾ ਕਰਨੀ ਚਾਹੁੰਦੇ ਸਨ ਜੋ ਪ੍ਰਕਾਸ਼ਿਤ ਹੋਈਆਂ ਅਤੇ ਬਾਅਦ ਵਿੱਚ ਉਹ ਪੋਸਟਾਂ ਦੇ ਨਾਲ ਮਿਟਾਏ ਗਏ ਸਨ ਜੋ ਪ੍ਰਕਾਸ਼ਿਤ ਹੋਈਆਂ ਸਨ ਅਤੇ ਕਦੇ ਵੀ ਹਟਾਈਆਂ ਨਹੀਂ ਗਈਆਂ.

ਇਹ ਪੋਸਟ ਇੱਕਠੀ ਸ਼ਾਮਲ ਸੰਬੰਧਤ ਪੋਸਟ-ਵੱਖ ਸਫ਼ਾ ਲੇਆਉਟ-ਲੱਭਣ, ਅਤੇ ਫਿਰ ਇਹ ਪੋਸਟ ਦੁਬਾਰਾ ਵੇਖਣ ਲਈ, ਜਿਸ ਨੂੰ ਬਾਅਦ ਹਟਾਇਆ ਗਿਆ ਸੀ ਦੇ ਨਾਲ ਹੋਰ ਵੀ ਵੱਧ 1000 ਚੀਨੀ ਸੋਸ਼ਲ ਮੀਡੀਆ ਵੈੱਬਸਾਈਟ-ਹਰ ਇੱਕ ਰਿੜ੍ਹਨਾ ਦੀ ਹੈਰਾਨੀਜਨਕ ਇੰਜੀਨੀਅਰਿੰਗ ਕਾਰਨਾਮਾ. ਵੱਡੇ ਪੱਧਰ ਵੈੱਬ-ਰਿੜ੍ਹਨਾ ਨਾਲ ਸੰਬੰਧਿਤ ਆਮ ਇੰਜੀਨੀਅਰਿੰਗ ਦੀ ਸਮੱਸਿਆ ਨੂੰ ਇਸ ਦੇ ਨਾਲ, ਇਸ ਪ੍ਰਾਜੈਕਟ ਜੋੜੇ ਚੁਣੌਤੀ ਹੈ, ਜੋ ਕਿ ਇਸ ਨੂੰ ਬਹੁਤ ਹੀ ਤੇਜ਼ੀ ਨਾਲ ਹੋਣ ਦੀ ਹੈ, ਕਿਉਕਿ ਬਹੁਤ ਸਾਰੇ censored ਪੋਸਟ ਘੱਟ ਵੱਧ 24 ਘੰਟੇ ਵਿੱਚ ਲਿਆ ਰਹੇ ਹਨ ਦੀ ਲੋੜ ਸੀ. ਹੋਰ ਸ਼ਬਦ ਵਿੱਚ, ਇੱਕ ਹੌਲੀ crawler ਪੋਸਟ ਹੈ, ਜੋ ਕਿ censored ਗਏ ਸਨ ਦੀ ਲਾਟ ਨੂੰ ਮਿਸ ਕਰੇਗਾ. ਅੱਗੇ, ਸਪਾਇਡਰ ਕਿਤੇ ਸੋਸ਼ਲ ਮੀਡੀਆ ਵੈੱਬਸਾਈਟ ਪਹੁੰਚ ਨੂੰ ਬਲਾਕ ਜ ਹੋਰ ਅਧਿਐਨ ਕਰਨ ਦੇ ਜਵਾਬ ਵਿੱਚ ਆਪਣੇ ਪਾਲਸੀ ਨੂੰ ਬਦਲ ਹੈ, ਜਦਕਿ ਖੋਜ ਚੋਰੀ ਇਹ ਸਭ ਡਾਟਾ ਇਕੱਠਾ ਨੂੰ ਕੀ ਕਰਨ ਦੀ ਸੀ.

ਉਸ ਸਮੇਂ ਤਕ ਇੰਨੇ ਵੱਡੇ ਇੰਜੀਨੀਅਰਿੰਗ ਦਾ ਕੰਮ ਪੂਰਾ ਹੋ ਗਿਆ ਸੀ, ਬਾਦਸ਼ਾਹ ਅਤੇ ਸਹਿਕਰਮੀਆਂ ਨੇ 85 ਵੱਖ-ਵੱਖ ਪ੍ਰਮੁਖ ਵਿਸ਼ਿਆਂ ਤੇ 11 ਮਿਲੀਅਨ ਪੋਸਟ ਪ੍ਰਾਪਤ ਕੀਤੀ ਸੀ, ਹਰ ਇਕ ਸੰਵੇਦਨਸ਼ੀਲਤਾ ਦੇ ਪੱਧਰ ਨਾਲ. ਉਦਾਹਰਨ ਲਈ, ਉੱਚ ਸੰਵੇਦਨਸ਼ੀਲਤਾ ਦਾ ਵਿਸ਼ਾ ਅਈ ਵੇਈਵੀ, ਅਸੰਤੁਸ਼ਟ ਕਲਾਕਾਰ ਹੈ; ਮੱਧ ਸੰਵੇਦਨਸ਼ੀਲਤਾ ਦਾ ਵਿਸ਼ਾ ਵਡਮੁੱਲਾ ਅਤੇ ਚੀਨੀ ਮੁਦਰਾ ਦਾ ਅਵਿਸ਼ਵਾਸ਼ ਹੈ ਅਤੇ ਘੱਟ ਸੰਵੇਦਨਸ਼ੀਲਤਾ ਦਾ ਵਿਸ਼ਾ ਵਿਸ਼ਵ ਕੱਪ ਹੈ ਇਨ੍ਹਾਂ 11 ਮਿਲੀਅਨ ਪੋਸਟਾਂ ਵਿੱਚੋਂ ਲਗਭਗ 2 ਮਿਲੀਅਨ ਸੈਂਸਰ ਸੈਂਸਰ ਕਰ ਚੁੱਕੇ ਹਨ. ਕੁਝ ਹੱਦ ਤਕ ਹੈਰਾਨੀ ਵਾਲੀ ਗੱਲ ਹੈ ਕਿ ਕਿੰਗ ਅਤੇ ਸਹਿਕਰਮੀਆਂ ਨੇ ਦੇਖਿਆ ਹੈ ਕਿ ਬਹੁਤ ਹੀ ਸੰਵੇਦਨਸ਼ੀਲ ਵਿਸ਼ਿਆਂ ਤੇ ਪੋਸਟਾਂ ਮੱਧਮ ਅਤੇ ਘੱਟ-ਸੰਵੇਦਨਸ਼ੀਲਤਾ ਵਾਲੇ ਵਿਸ਼ੇਾਂ ਦੀਆਂ ਪੋਸਟਾਂ ਨਾਲੋਂ ਸਿਰਫ ਥੋੜ੍ਹੀ ਜ਼ਿਆਦਾ ਸੈਂਸਰ ਕੀਤੀਆਂ ਗਈਆਂ ਸਨ. ਦੂਜੇ ਸ਼ਬਦਾਂ ਵਿਚ, ਚੀਨੀ ਸੈਸਰਾਂ ਦੇ ਬਾਰੇ ਵਿਚ ਇਕ ਅਜਿਹੇ ਪੋਸਟ ਨੂੰ ਸੈਂਸਰ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਹੈ ਜਿਸ ਵਿਚ ਏ ਵਾਈਵੇਈ ਦਾ ਵਰਲਡ ਕੱਪ ਦਾ ਜ਼ਿਕਰ ਕੀਤਾ ਗਿਆ ਹੈ. ਇਹ ਤੱਥ ਇਸ ਵਿਚਾਰ ਦਾ ਸਮਰਥਨ ਨਹੀਂ ਕਰਦੇ ਕਿ ਸਰਕਾਰ ਸੰਵੇਦਨਸ਼ੀਲ ਵਿਸ਼ਿਆਂ ਤੇ ਸਾਰੀਆਂ ਪੋਸਟਾਂ ਦਾ ਖੰਡਨ ਕਰਦੀ ਹੈ.

ਵਿਸ਼ੇ ਦੁਆਰਾ ਸੇਨਸੋਰਸ ਰੇਟ ਦੀ ਇਹ ਸਧਾਰਣ ਗਣਨਾ ਗੁੰਮਰਾਹਕੁੰਨ ਹੋ ਸਕਦੀ ਹੈ, ਹਾਲਾਂਕਿ ਮਿਸਾਲ ਦੇ ਤੌਰ ਤੇ, ਸਰਕਾਰ ਅਈ ਵੇਈਵੀ ਦੀ ਸਹਾਇਤਾ ਕਰਨ ਵਾਲੇ ਅਹੁਦੇ 'ਤੇ ਪਾਬੰਦੀ ਲਗਾ ਸਕਦੀ ਹੈ, ਪਰ ਉਨ੍ਹਾਂ ਦੀਆਂ ਜ਼ੰਜੀਰ ਵਾਲੀਆਂ ਪੋਸਟਾਂ ਨੂੰ ਛਾਪਣ ਪੋਸਟਾਂ ਵਿਚਕਾਰ ਵਧੇਰੇ ਧਿਆਨ ਨਾਲ ਖੋਜ ਕਰਨ ਲਈ, ਖੋਜਕਾਰਾਂ ਨੂੰ ਹਰੇਕ ਪੋਸਟ ਦੀ ਭਾਵਨਾ ਨੂੰ ਮਾਪਣ ਦੀ ਲੋੜ ਸੀ ਬਦਕਿਸਮਤੀ ਨਾਲ, ਬਹੁਤ ਕੰਮ ਦੇ ਬਾਵਜੂਦ, ਪਹਿਲਾਂ ਤੋਂ ਮੌਜੂਦ ਡਿਕਸ਼ਨਰੀਆਂ ਦਾ ਉਪਯੋਗ ਕਰਕੇ ਭਾਵਨਾ ਖੋਜ ਦੇ ਪੂਰੀ ਤਰ੍ਹਾਂ ਆਟੋਮੈਟਿਕ ਢੰਗ ਅਜੇ ਵੀ ਬਹੁਤ ਹਾਲਾਤਾਂ ਵਿੱਚ ਚੰਗੇ ਨਹੀਂ ਹਨ (ਸੈਕਸ਼ਨ 2.3.9 ਵਿੱਚ ਦੱਸੇ ਗਏ ਸਿਤੰਬਰ 11, 2001 ਦੀ ਭਾਵਨਾਤਮਕ ਟਾਈਮਲਾਈਨ ਬਣਾਉਣ ਵਾਲੀਆਂ ਸਮੱਸਿਆਵਾਂ ਬਾਰੇ ਸੋਚਣਾ). ਇਸ ਲਈ, ਰਾਜਾ ਅਤੇ ਸਹਿਕਰਮੀਆਂ ਨੂੰ 11 ਮਿਲੀਅਨ ਸੋਸ਼ਲ ਮੀਡੀਆ ਪੋਸਟਾਂ ਦਾ ਲੇਬਲ ਦੇਣ ਦੀ ਜ਼ਰੂਰਤ ਸੀ ਕਿ ਕੀ ਉਹ (1) ਰਾਜ ਦੇ ਨਾਜ਼ੁਕ, (2) ਰਾਜ ਦੀ ਸਹਾਇਤਾ ਕਰਦੇ ਹਨ, ਜਾਂ (3) ਘਟਨਾਵਾਂ ਬਾਰੇ ਬੇਅਸਰ ਜਾਂ ਅਸਲ ਰਿਪੋਰਟ ਇਹ ਵੱਡੀਆਂ ਨੌਕਰੀਆਂ ਵਾਂਗ ਆਵਾਜ਼ਾਂ ਕੱਢਦਾ ਹੈ, ਪਰੰਤੂ ਉਹਨਾਂ ਨੇ ਇਸ ਨੂੰ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਚਾਲ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਹੱਲ ਕੀਤਾ ਜੋ ਕਿ ਡਾਟਾ ਵਿਗਿਆਨ ਵਿੱਚ ਆਮ ਹੈ ਪਰ ਸਮਾਜਿਕ ਵਿਗਿਆਨ ਵਿੱਚ ਮੁਕਾਬਲਤਨ ਘੱਟ ਹੈ: ਨਿਗਰਾਨੀ ਕੀਤੀ ਗਈ ਸਿੱਖਿਆ ; ਚਿੱਤਰ 2.5 ਦੇਖੋ.

ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਇੱਕ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ , ਜੋ ਪ੍ਰਾਸਕੌਸਿਸਿੰਗ ਨੂੰ ਆਮ ਤੌਰ ਤੇ ਕਹਿੰਦੇ ਹਨ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਸੋਸ਼ਲ ਮੀਡੀਆ ਪੋਸਟਾਂ ਨੂੰ ਇੱਕ ਦਸਤਾਵੇਜ਼ ਮਿਆਦ ਦੇ ਮੈਟ੍ਰਿਕਸ ਵਿੱਚ ਪਰਿਵਰਤਿਤ ਕਰ ਦਿੱਤਾ ਸੀ, ਜਿੱਥੇ ਹਰੇਕ ਦਸਤਾਵੇਜ਼ ਅਤੇ ਇੱਕ ਕਾਲਮ ਦੀ ਇੱਕ ਕਤਾਰ ਸੀ ਜੋ ਰਿਕਾਰਡ ਕੀਤੀ ਗਈ ਸੀ ਕਿ ਪੋਸਟ ਵਿੱਚ ਇੱਕ ਖਾਸ ਸ਼ਬਦ (ਜਿਵੇਂ ਕਿ ਵਿਰੋਧ ਜਾਂ ਟ੍ਰੈਫਿਕ) . ਅਗਲਾ, ਖੋਜ ਸਹਾਇਕ ਦੇ ਇੱਕ ਸਮੂਹ ਨੇ ਪੋਸਟਾਂ ਦੇ ਇੱਕ ਨਮੂਨੇ ਦੀ ਭਾਵਨਾ ਨੂੰ ਲੇਬਲ ਕੀਤਾ. ਫਿਰ, ਉਹਨਾਂ ਨੇ ਇਸ ਹੱਥ-ਲੇਬਲ ਵਾਲੇ ਡੈਟੇ ਨੂੰ ਇੱਕ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲ ਬਣਾਉਣ ਲਈ ਵਰਤਿਆ ਹੈ ਜੋ ਕਿ ਇਸਦੀ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੇ ਅਧਾਰ ਤੇ ਇੱਕ ਪੋਸਟ ਦੀ ਭਾਵਨਾ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾ ਸਕਦਾ ਹੈ. ਅੰਤ ਵਿੱਚ, ਉਨ੍ਹਾਂ ਨੇ ਇਸ ਮਾਡਲ ਨੂੰ 11 ਮਿਲੀਅਨ ਦੀਆਂ ਸਾਰੀਆਂ ਆਸਾਮੀਆਂ ਦੀ ਭਾਵਨਾ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਵਰਤਿਆ.

ਇਸ ਤਰ੍ਹਾਂ, 11 ਮਿਲੀਅਨ ਪੋਸਟਾਂ ਨੂੰ ਦਸਤੀ ਪੜ੍ਹ ਅਤੇ ਲੇਬਲ ਕਰਨ ਦੀ ਬਜਾਏ, ਜੋ ਕਿ ਲੌਸਿਮਰਿਕ ਤੌਰ ਤੇ ਅਸੰਭਵ ਹੋਵੇਗਾ-ਕਿੰਗ ਅਤੇ ਸਹਿਕਰਮੀਆਂ ਨੇ ਖੁਦ ਹੀ ਛੋਟੀਆਂ-ਛੋਟੀਆਂ ਪੋਸਟਾਂ ਦਾ ਲੇਬਲ ਕੀਤਾ ਅਤੇ ਫਿਰ ਸਾਰੇ ਪੋਸਟਾਂ ਦੀ ਭਾਵਨਾ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਨਿਗਰਾਨੀ ਕੀਤੀ ਗਈ ਵਰਤੋਂ ਕੀਤੀ. ਇਸ ਵਿਸ਼ਲੇਸ਼ਣ ਨੂੰ ਪੂਰਾ ਕਰਨ ਤੋਂ ਬਾਅਦ ਉਹ ਇਹ ਸਿੱਟਾ ਕੱਢਣ ਦੇ ਯੋਗ ਹੋ ਗਏ ਸਨ ਕਿ, ਕੁਝ ਹੱਦ ਤਕ ਹੈਰਾਨ ਕਰਨ ਵਾਲੀ ਇਕ ਅਹੁਦੇ ਦੀ ਸੰਭਾਵਨਾ ਨਾਲ ਕੋਈ ਸੰਬੰਧ ਨਹੀਂ ਸੀ ਕਿ ਇਹ ਰਾਜ ਦੀ ਅਲੋਚਨਾ ਕਰਦਾ ਹੈ ਜਾਂ ਰਾਜ ਦੇ ਸਹਿਯੋਗੀ ਹੁੰਦਾ ਹੈ.

ਚਿੱਤਰ 2.5: 11 ਮਿਲੀਅਨ ਚੀਨੀ ਸੋਸ਼ਲ ਮੀਡੀਆ ਪੋਸਟਾਂ ਦੀ ਭਾਵਨਾ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਲਈ ਕਿੰਗ, ਪਾਨ ਅਤੇ ਰੌਬਰਟਸ (2013) ਦੁਆਰਾ ਵਰਤੀ ਗਈ ਪ੍ਰਕਿਰਿਆ ਦਾ ਸੌਖਾ ਯੋਜਨਾਬੱਧ. ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਇੱਕ ਪੂਰਵ-ਪ੍ਰੋਸੈਸਿੰਗ ਪਗ ਵਿੱਚ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਸੋਸ਼ਲ ਮੀਡੀਆ ਪੋਸਟਾਂ ਨੂੰ ਇੱਕ ਦਸਤਾਵੇਜ਼ ਮਿਆਦ ਦੇ ਮੈਟ੍ਰਿਕਸ ਵਿੱਚ ਪਰਿਵਰਤਿਤ ਕੀਤਾ (ਵਧੇਰੇ ਜਾਣਕਾਰੀ ਲਈ ਗ੍ਰਾਇਮਮਰ ਅਤੇ ਸਟੀਵਰਟ (2013) ਦੇਖੋ). ਦੂਜਾ, ਉਹਨਾਂ ਨੇ ਪੋਸਟਾਂ ਦੇ ਇੱਕ ਛੋਟੇ ਜਿਹੇ ਨਮੂਨੇ ਦੀਆਂ ਭਾਵਨਾਵਾਂ ਨੂੰ ਹੱਥ-ਕੋਡਬੱਧ ਕੀਤਾ ਤੀਜੀ, ਉਨ੍ਹਾਂ ਨੇ ਪੋਸਟਾਂ ਦੀ ਭਾਵਨਾ ਨੂੰ ਸ਼੍ਰੇਣੀਬੱਧ ਕਰਨ ਲਈ ਇੱਕ ਨਿਰੀਖਣ ਕੀਤੇ ਗਏ ਸਿੱਖਿਅਕ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦਿੱਤੀ. ਚੌਥਾ, ਉਨ੍ਹਾਂ ਨੇ ਸਾਰੇ ਪੋਸਟਾਂ ਦੀ ਭਾਵਨਾ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਨਿਰੀਖਣ ਕੀਤੇ ਗਏ ਸਿੱਖਿਅਕ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕੀਤੀ. ਕਿੰਗ, ਪੈਨ ਅਤੇ ਰੌਬਰਟਸ (2013), ਵਧੇਰੇ ਵਿਸਥਾਰਪੂਰਵਕ ਵੇਰਵੇ ਲਈ ਅੰਤਿਕਾ B ਵੇਖੋ.

ਚਿੱਤਰ 2.5: 11 ਮਿਲੀਅਨ ਚੀਨੀ ਸੋਸ਼ਲ ਮੀਡੀਆ ਪੋਸਟਾਂ ਦੀ ਭਾਵਨਾ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਲਈ King, Pan, and Roberts (2013) ਦੁਆਰਾ ਵਰਤੀ ਗਈ ਪ੍ਰਕਿਰਿਆ ਦਾ ਸੌਖਾ ਯੋਜਨਾਬੱਧ. ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਇੱਕ ਪੂਰਵ-ਪ੍ਰੋਸੈਸਿੰਗ ਪਗ ਵਿੱਚ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਸੋਸ਼ਲ ਮੀਡੀਆ ਪੋਸਟਾਂ ਨੂੰ ਇੱਕ ਦਸਤਾਵੇਜ਼ ਮਿਆਦ ਦੇ ਮੈਟ੍ਰਿਕਸ ਵਿੱਚ ਪਰਿਵਰਤਿਤ ਕੀਤਾ Grimmer and Stewart (2013) ਵਧੇਰੇ ਜਾਣਕਾਰੀ ਲਈ Grimmer and Stewart (2013) ਦੇਖੋ). ਦੂਜਾ, ਉਹਨਾਂ ਨੇ ਪੋਸਟਾਂ ਦੇ ਇੱਕ ਛੋਟੇ ਜਿਹੇ ਨਮੂਨੇ ਦੀਆਂ ਭਾਵਨਾਵਾਂ ਨੂੰ ਹੱਥ-ਕੋਡਬੱਧ ਕੀਤਾ ਤੀਜੀ, ਉਨ੍ਹਾਂ ਨੇ ਪੋਸਟਾਂ ਦੀ ਭਾਵਨਾ ਨੂੰ ਸ਼੍ਰੇਣੀਬੱਧ ਕਰਨ ਲਈ ਇੱਕ ਨਿਰੀਖਣ ਕੀਤੇ ਗਏ ਸਿੱਖਿਅਕ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦਿੱਤੀ. ਚੌਥਾ, ਉਨ੍ਹਾਂ ਨੇ ਸਾਰੇ ਪੋਸਟਾਂ ਦੀ ਭਾਵਨਾ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਨਿਰੀਖਣ ਕੀਤੇ ਗਏ ਸਿੱਖਿਅਕ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕੀਤੀ. King, Pan, and Roberts (2013) , ਵਧੇਰੇ ਵਿਸਥਾਰਪੂਰਵਕ ਵੇਰਵੇ ਲਈ ਅੰਤਿਕਾ B ਵੇਖੋ.

ਅਖੀਰ ਵਿੱਚ, ਕਿੰਗ ਅਤੇ ਉਸਦੇ ਸਾਥੀਆਂ ਨੇ ਖੋਜ ਕੀਤੀ ਕਿ ਸਿਰਫ਼ ਤਿੰਨ ਕਿਸਮ ਦੀਆਂ ਪੋਸਟਾਂ ਨਿਯਮਤ ਤੌਰ 'ਤੇ ਸੈਂਸਰ ਕੀਤੀਆਂ ਗਈਆਂ ਸਨ: ਪੋਰਨੋਗ੍ਰਾਫੀ, ਸੈਂਸਰ ਦੀ ਆਲੋਚਨਾ, ਅਤੇ ਜਿਨ੍ਹਾਂ ਕੋਲ ਸਮੂਹਿਕ ਕਿਰਿਆਸ਼ੀਲਤਾ ਦੀ ਸਮਰੱਥਾ ਸੀ (ਭਾਵ, ਵੱਡੇ ਪੈਮਾਨੇ ਤੇ ਮੁਜ਼ਾਹਰਾ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ). ਬਹੁਤ ਸਾਰੀਆਂ ਪੋਸਟਾਂ ਨੂੰ ਮਿਟਾਉਣ ਅਤੇ ਹਟਾਉਣ ਵਾਲੀਆਂ ਪੋਸਟਾਂ ਨੂੰ ਦੇਖ ਕੇ, ਕਿੰਗ ਅਤੇ ਸਹਿਕਰਮੀਆਂ ਇਹ ਜਾਣ ਸਕਦੀਆਂ ਸਨ ਕਿ ਸੈਂਸਰ ਕਿਵੇਂ ਦੇਖਦੇ ਅਤੇ ਗਿਣਤੀ ਕਰਦੇ ਹਨ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਸ ਪੁਸਤਕ ਵਿਚ ਜੋ ਥੀਮ ਹੋਵੇਗਾ ਉਹ ਇਕ ਅਜਿਹੀ ਥੀਮ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਜੋ ਉਹਨਾਂ ਦੁਆਰਾ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਨਿਰੀਖਣ ਕੀਤੇ ਗਏ ਸਿੱਖਣ ਦੀ ਪਹੁੰਚ ਨੂੰ ਕੁਝ ਨਤੀਜੇ ਦੇਣ ਅਤੇ ਫਿਰ ਇਕ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲ ਬਣਾਉਣ ਲਈ ਬਾਕੀ ਦੇ ਲੇਬਲ ਬਣਾਉਂਦਾ ਹੈ- ਇਹ ਡਿਜੀਟਲ ਉਮਰ ਵਿਚ ਸਮਾਜਿਕ ਖੋਜ ਵਿਚ ਬਹੁਤ ਆਮ ਹੁੰਦਾ ਹੈ. . ਤੁਸੀਂ ਅਧਿਆਇ -3 (ਪ੍ਰਸ਼ਨ ਪੁੱਛਣੇ) ਅਤੇ 5 (ਜਨ-ਸਹਿਯੋਗ ਦੀ ਸਿਰਜਣਾ) ਵਿਚ 2.5 ਦੇ ਬਰਾਬਰ ਦੀਆਂ ਤਸਵੀਰਾਂ ਵੇਖੋਗੇ; ਇਹ ਕਈ ਵਿਚਾਰਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ ਜੋ ਕਈ ਅਧਿਆਇਆਂ ਵਿੱਚ ਪ੍ਰਗਟ ਹੁੰਦਾ ਹੈ.

ਇਹ ਉਦਾਹਰਨਾਂ - ਨਿਊਯਾਰਕ ਵਿਚ ਟੈਕਸੀ ਡਰਾਈਵਰਾਂ ਦਾ ਵਰਤਾਓ ਕਰਨ ਵਾਲਾ ਕੰਮ ਅਤੇ ਚੀਨੀ ਸਰਕਾਰ ਦੇ ਸੋਸ਼ਲ ਮੀਡੀਆ ਸੇਨਸੋਰਸਤਾ ਦੇ ਵਿਵਹਾਰ - ਵਿਖਾਉਂਦੇ ਹਨ ਕਿ ਵੱਡੇ ਸੰਦਰਭ ਦੇ ਮੁਕਾਬਲਤਨ ਸਧਾਰਨ ਗਿਣਤੀ ਦੀ ਗਿਣਤੀ, ਕੁਝ ਸਥਿਤੀਆਂ ਵਿੱਚ, ਦਿਲਚਸਪ ਅਤੇ ਮਹੱਤਵਪੂਰਨ ਖੋਜਾਂ ਵੱਲ ਲੈ ਜਾ ਸਕਦੀ ਹੈ ਪਰੰਤੂ ਦੋਨਾਂ ਮਾਮਲਿਆਂ ਵਿੱਚ, ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਵੱਡੇ ਡੈਟਾ ਸ੍ਰੋਤਾਂ ਨੂੰ ਦਿਲਚਸਪ ਸਵਾਲ ਲੈਣੇ ਸਨ; ਆਪਣੇ ਆਪ ਵਿਚਲੇ ਡੇਟਾ ਕਾਫ਼ੀ ਨਹੀਂ ਸਨ.