2.2 ਵੱਡੇ ਡਾਟਾ

ਰਿਸਰਚਾਂ ਤੋਂ ਇਲਾਵਾ ਹੋਰ ਮੰਤਵਾਂ ਲਈ ਕੰਪਨੀਆਂ ਅਤੇ ਸਰਕਾਰਾਂ ਦੁਆਰਾ ਵੱਡੇ ਅੰਕੜੇ ਬਣਾਏ ਅਤੇ ਇਕੱਤਰ ਕੀਤੇ ਜਾਂਦੇ ਹਨ. ਖੋਜ ਲਈ ਇਸ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਇਸ ਲਈ, ਲੋੜ ਪੈਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ.

ਡਿਜੀਟਲ ਦੀ ਉਮਰ ਵਿਚ ਬਹੁਤ ਸਾਰੇ ਲੋਕਾਂ ਨੂੰ ਸੋਸ਼ਲ ਰਿਸਰਚ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਸਭ ਤੋਂ ਪਹਿਲਾ ਤਰੀਕਾ ਹੈ ਜਿਸਨੂੰ ਅਕਸਰ ਵੱਡੇ ਡੇਟਾ ਕਿਹਾ ਜਾਂਦਾ ਹੈ . ਇਸ ਮਿਆਦ ਦੀ ਵਿਆਪਕ ਵਰਤੋਂ ਦੇ ਬਾਵਜੂਦ, ਇਸ ਬਾਰੇ ਕੋਈ ਵੀ ਸਹਿਮਤੀ ਨਹੀਂ ਹੈ ਕਿ ਕਿਹੜਾ ਵੱਡਾ ਡਾਟਾ ਵੀ ਹੈ ਹਾਲਾਂਕਿ, ਵੱਡੇ ਅੰਕੜਿਆਂ ਦੀ ਸਭ ਤੋਂ ਵੱਧ ਆਮ ਪ੍ਰੀਭਾਸ਼ਾ ਵਿੱਚ "3 ਵਿਆਂ" ਤੇ ਧਿਆਨ ਦਿੱਤਾ ਗਿਆ ਹੈ: ਵੋਲਯੂਮ, ਵਾਇਰਟੀ, ਅਤੇ ਵੋਲਵੋਟੀ. ਲਗਭਗ, ਬਹੁਤ ਸਾਰੇ ਫਾਰਮੈਟਾਂ ਵਿੱਚ ਬਹੁਤ ਸਾਰਾ ਡਾਟਾ ਹੈ, ਅਤੇ ਇਸਨੂੰ ਲਗਾਤਾਰ ਬਣਾਇਆ ਜਾ ਰਿਹਾ ਹੈ. ਵੱਡੇ ਡੈਟਾ ਦੇ ਕੁਝ ਪ੍ਰਸ਼ੰਸਕ ਹੋਰ "ਵਿਜ਼ਾਂ" ਨੂੰ ਵੀਰਸੀਟੀ ਅਤੇ ਵੈਲਯੂ ਦੇ ਤੌਰ ਤੇ ਜੋੜਦੇ ਹਨ, ਜਦੋਂ ਕਿ ਕੁਝ ਆਲੋਚਕ ਵਿਜ ਅਤੇ ਵਕਸੇ ਜਿਹੇ Vs ਨੂੰ ਜੋੜਦੇ ਹਨ. ਸਮਾਜਿਕ ਖੋਜ ਦੇ ਉਦੇਸ਼ਾਂ ਲਈ, 3 "Vs" (ਜਾਂ 5 "Vs" ਜਾਂ 7 "Vs") ਦੀ ਬਜਾਏ, ਮੈਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ ਸ਼ੁਰੂ ਕਰਨ ਲਈ ਇੱਕ ਬਿਹਤਰ ਸਥਾਨ 5 "ਡਬਲਯੂ" ਹੈ: ਕੌਣ, ਕੀ, ਕਿੱਥੇ, ਕਦੋਂ , ਅਤੇ ਕਿਉਂ? ਵਾਸਤਵ ਵਿੱਚ, ਮੈਂ ਸੋਚਦਾ ਹਾਂ ਕਿ ਵੱਡੀਆਂ ਡਾਟਾ ਸ੍ਰੋਤਾਂ ਦੁਆਰਾ ਬਣਾਏ ਗਏ ਕਈ ਚੁਣੌਤੀਆਂ ਅਤੇ ਮੌਕੇ ਕੇਵਲ ਇੱਕ "ਡਬਲਯੂ" ਤੋਂ ਹਨ: ਕਿਉਂ?

ਐਨਾਲੌਗ ਦੀ ਉਮਰ ਵਿਚ, ਰਿਸਰਚ ਕਰਨ ਦੇ ਉਦੇਸ਼ ਲਈ ਜ਼ਿਆਦਾਤਰ ਡਾਟਾ ਸਮਾਜਿਕ ਖੋਜ ਲਈ ਵਰਤਿਆ ਗਿਆ ਸੀ. ਡਿਜੀਟਲ ਦੀ ਉਮਰ ਵਿੱਚ, ਹਾਲਾਂਕਿ, ਖੋਜਾਂ ਤੋਂ ਇਲਾਵਾ ਹੋਰ ਉਦੇਸ਼ਾਂ ਲਈ ਕੰਪਨੀਆਂ ਅਤੇ ਸਰਕਾਰਾਂ ਦੁਆਰਾ ਇੱਕ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਡੇਟਾ ਤਿਆਰ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਸੇਵਾਵਾਂ ਪ੍ਰਦਾਨ ਕਰਨਾ, ਮੁਨਾਫਾ ਪੈਦਾ ਕਰਨਾ ਅਤੇ ਕਾਨੂੰਨ ਲਾਗੂ ਕਰਨਾ. ਰਚਨਾਤਮਕ ਲੋਕਾਂ ਨੇ, ਪਰ, ਇਹ ਮਹਿਸੂਸ ਕੀਤਾ ਹੈ ਕਿ ਤੁਸੀਂ ਖੋਜ ਲਈ ਇਸ ਕਾਰਪੋਰੇਟ ਅਤੇ ਸਰਕਾਰੀ ਡਾਟਾ ਦੀ ਮੁਰੰਮਤ ਕਰ ਸਕਦੇ ਹੋ. ਅਧਿਆਪ 1 ਵਿਚਲੇ ਕਲਾ ਅਨੂਪਣ ਬਾਰੇ ਸੋਚਦੇ ਹੋਏ, ਜਿਸ ਤਰ੍ਹਾਂ ਡਾਚਪ ਨੇ ਕਲਾ ਬਣਾਉਣ ਲਈ ਇਕ ਲੱਭਤ ਇਕਾਈ ਨੂੰ ਮੁੜ ਦੁਹਰਾਇਆ, ਹੁਣ ਵਿਗਿਆਨੀਆਂ ਨੇ ਖੋਜਾਂ ਨੂੰ ਲੱਭਣ ਲਈ ਲੱਭੇ ਹੋਏ ਅੰਕੜੇ ਦੁਬਾਰਾ ਤਿਆਰ ਕਰ ਸਕਦੇ ਹਨ.

ਹਾਲਾਂਕਿ ਖੋਜਾਂ ਦੇ ਉਦੇਸ਼ਾਂ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਡੇਟਾ ਦਾ ਇਸਤੇਮਾਲ ਕਰਨ ਲਈ ਮੁਰੰਮਤ ਕਰਨ ਦੇ ਬਹੁਤ ਵੱਡੇ ਮੌਕੇ ਹਨ, ਪਰ ਇਹ ਨਵੀਂ ਚੁਣੌਤੀਆਂ ਪੇਸ਼ ਕਰਦਾ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਇੱਕ ਸੋਸ਼ਲ ਮੀਡੀਆ ਸਰਵਿਸ, ਜਿਵੇਂ ਕਿ ਟਵਿੱਟਰ, ਦੀ ਤੁਲਨਾ ਕਰੋ, ਇੱਕ ਆਮ ਜਨਮਤ ਮੱਤ ਸਰਵੇਖਣ ਜਿਵੇਂ ਕਿ ਜਨਰਲ ਸੋਸ਼ਲ ਸਰਵੇਅ. ਟਵਿੱਟਰ ਦਾ ਮੁੱਖ ਟੀਚਾ ਆਪਣੇ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਸੇਵਾ ਪ੍ਰਦਾਨ ਕਰਨਾ ਅਤੇ ਮੁਨਾਫ਼ਾ ਕਮਾਉਣਾ ਹੈ. ਦੂਜੇ ਪਾਸੇ, ਆਮ ਸਮਾਜਕ ਸਰਵੇਖਣ, ਸਮਾਜਿਕ ਖੋਜ ਲਈ ਆਮ ਮੰਤਵਾਂ ਦੇ ਅੰਕੜਿਆਂ ਨੂੰ ਬਣਾਉਣ 'ਤੇ ਕੇਂਦਰਿਤ ਹੈ, ਖਾਸ ਕਰਕੇ ਜਨਤਕ ਰਾਏ ਰਿਸਰਚ ਲਈ. ਟੀਚੇ ਵਿੱਚ ਇਹ ਫਰਕ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਟਵਿੱਟਰ ਅਤੇ ਆਮ ਸਮਾਜਿਕ ਸਰਵੇਖਣ ਦੁਆਰਾ ਬਣਾਏ ਗਏ ਡੇਟਾ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਸੰਪਤੀਆਂ ਹਨ, ਭਾਵੇਂ ਕਿ ਦੋਨਾਂ ਨੂੰ ਜਨਮਤ ਦਾ ਅਧਿਐਨ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ ਟਵਿੱਟਰ ਪੈਮਾਨੇ 'ਤੇ ਕੰਮ ਕਰਦਾ ਹੈ ਅਤੇ ਸਪੀਡ ਕਰਦਾ ਹੈ ਕਿ ਆਮ ਸਮਾਜਿਕ ਸਰਵੇਖਣ ਮੇਲ ਨਹੀਂ ਖਾਂਦੇ, ਪਰ ਜਨਰਲ ਸੋਸ਼ਲ ਸਰਵੇਖਣ ਤੋਂ ਉਲਟ, ਟਵਿਟਰ ਧਿਆਨ ਨਾਲ ਉਪਭੋਗਤਾਵਾਂ ਦਾ ਨਮੂਨਾ ਨਹੀਂ ਪੇਸ਼ ਕਰਦਾ ਅਤੇ ਸਮੇਂ ਦੇ ਨਾਲ ਤੁਲਨਾਤਮਕਤਾ ਬਰਕਰਾਰ ਰੱਖਣ ਲਈ ਸਖਤ ਮਿਹਨਤ ਨਹੀਂ ਕਰਦਾ. ਕਿਉਂਕਿ ਇਹ ਦੋ ਡਾਟਾ ਸਰੋਤ ਵੱਖਰੇ ਹਨ, ਇਸ ਲਈ ਇਹ ਕਹਿਣਾ ਸਹੀ ਨਹੀਂ ਹੈ ਕਿ ਜਨਰਲ ਸੋਸ਼ਲ ਸਰਵੇਖਣ ਟਵਿੱਟਰ ਜਾਂ ਉਲਟ ਤੋਂ ਵਧੀਆ ਹੈ. ਜੇ ਤੁਸੀਂ ਗਲੋਬਲ ਮੂਡ ਦੇ ਘੰਟਾਵਾਰ ਉਪਾਅ ਚਾਹੁੰਦੇ ਹੋ (ਜਿਵੇਂ Golder and Macy (2011) ), ਟਵਿੱਟਰ ਸਭ ਤੋਂ ਵਧੀਆ ਹੈ. ਦੂਜੇ ਪਾਸੇ, ਜੇ ਤੁਸੀਂ ਯੂਨਾਈਟਿਡ ਸਟੇਟ (ਜਿਵੇਂ ਕਿ DiMaggio, Evans, and Bryson (1996) ) ਦੇ ਰਵੱਈਏ ਦੇ ਧਰੁਵੀਕਰਨ ਵਿਚ ਲੰਬੇ ਸਮੇਂ ਦੀਆਂ ਤਬਦੀਲੀਆਂ ਨੂੰ ਸਮਝਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਆਮ ਸਮਾਜਕ ਸਰਵੇਖਣ ਵਧੀਆ ਚੋਣ ਹੈ ਆਮ ਤੌਰ 'ਤੇ ਇਹ ਦਲੀਲ ਦੇਣ ਦੀ ਬਜਾਏ ਕਿ ਵੱਡੇ ਡੈਟਾ ਸ੍ਰੋਤ ਹੋਰ ਕਿਸਮ ਦੇ ਡੈਟਾ ਨਾਲੋਂ ਬਿਹਤਰ ਜਾਂ ਭੈੜੇ ਹੁੰਦੇ ਹਨ, ਇਹ ਅਧਿਆਇ ਸਪਸ਼ਟ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੇਗਾ ਕਿ ਕਿਸ ਤਰ੍ਹਾਂ ਦੇ ਰਿਸਰਚ ਸਵਾਲ ਵੱਡੇ ਡਾਟਾ ਸ੍ਰੋਤਾਂ ਨੂੰ ਆਕਰਸ਼ਕ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਹਨ ਅਤੇ ਕਿਸ ਤਰ੍ਹਾਂ ਦੇ ਪ੍ਰਸ਼ਨ ਉਹ ਨਹੀਂ ਹਨ ਆਦਰਸ਼.

ਵੱਡੇ ਡੇਟਾ ਸ੍ਰੋਤਾਂ ਬਾਰੇ ਸੋਚਦੇ ਹੋਏ, ਬਹੁਤ ਸਾਰੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਕੰਪਨੀਆਂ ਦੁਆਰਾ ਬਣਾਏ ਅਤੇ ਇਕੱਤਰ ਕੀਤੇ ਔਨਲਾਈਨ ਡਾਟਾ ਤੇ ਤੁਰੰਤ ਧਿਆਨ ਦਿੱਤਾ, ਜਿਵੇਂ ਕਿ ਖੋਜ ਇੰਜਨ ਲੌਗ ਅਤੇ ਸੋਸ਼ਲ ਮੀਡੀਆ ਪੋਸਟ ਹਾਲਾਂਕਿ, ਇਹ ਸੰਖੇਪ ਕੇਂਦਰ ਵੱਡਾ ਡੇਟਾ ਦੇ ਦੋ ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਸਰੋਤਾਂ ਨੂੰ ਛੱਡ ਦਿੰਦਾ ਹੈ. ਪਹਿਲੀ, ਭਾਰੀ ਦੁਨੀਆਂ ਵਿਚ ਵੱਡੇ-ਵੱਡੇ ਕਾਰਪੋਰੇਟ ਸਰੋਤ ਡਿਜੀਟਲ ਯੰਤਰਾਂ ਤੋਂ ਆਉਂਦੇ ਹਨ. ਉਦਾਹਰਨ ਲਈ, ਇਸ ਅਧਿਆਇ ਵਿੱਚ, ਮੈਂ ਤੁਹਾਨੂੰ ਇੱਕ ਅਧਿਐਨ ਬਾਰੇ ਦੱਸਾਂਗਾ ਜੋ ਸੁਪਰ ਮਾਰਕੀਟ ਚੈੱਕ-ਆਊਟ ਡੇਟਾ ਨੂੰ ਦੁਬਾਰਾ ਖੋਜਣ ਲਈ ਇਸਦਾ ਅਧਿਐਨ ਕਰਨ ਲਈ ਦੱਸਦਾ ਹੈ ਕਿ ਕਿਸਦਾ ਉਤਪਾਦਕਤਾ ਉਸ ਦੇ ਸਾਥੀਆਂ (Mas and Moretti 2009) ਦੀ ਉਤਪਾਦਕਤਾ ਦੁਆਰਾ ਪ੍ਰਭਾਵਿਤ ਹੈ. ਫਿਰ, ਬਾਅਦ ਦੇ ਚੈਪਟਰਾਂ ਵਿੱਚ, ਮੈਂ ਤੁਹਾਨੂੰ ਉਨ੍ਹਾਂ ਖੋਜਕਾਰਾਂ ਬਾਰੇ ਦੱਸਾਂਗਾ ਜੋ ਮੋਬਾਈਲ ਫੋਨਾਂ (Blumenstock, Cadamuro, and On 2015) ਤੋਂ ਕਾਲ ਰਿਕਾਰਡਾਂ ਦਾ ਇਸਤੇਮਾਲ ਕਰਦੇ ਹਨ ਅਤੇ ਇਲੈਕਟ੍ਰਿਕ ਯੂਟਿਲਟੀਜ਼ ਦੁਆਰਾ ਬਣਾਏ ਬਿਲਿੰਗ ਡਾਟਾ (Allcott 2015) ਜਿਵੇਂ ਕਿ ਇਹਨਾਂ ਉਦਾਹਰਣਾਂ ਦਰਸਾਉਂਦੀਆਂ ਹਨ, ਕਾਰਪੋਰੇਟ ਵੱਡੇ ਡਾਟਾ ਸ੍ਰੋਤ ਕੇਵਲ ਔਨਲਾਈਨ ਵਰਤਾਓ ਤੋਂ ਵੀ ਜ਼ਿਆਦਾ ਨਹੀਂ ਹੁੰਦੇ.

ਆਨਲਾਈਨ ਵਤੀਰੇ 'ਤੇ ਇੱਕ ਤੰਗ ਫੋਕਸ ਦੁਆਰਾ ਖੁੰਝੇ ਵੱਡੇ ਅੰਕਾਂ ਦਾ ਦੂਸਰਾ ਮਹੱਤਵਪੂਰਨ ਸਰੋਤ ਸਰਕਾਰਾਂ ਦੁਆਰਾ ਬਣਾਇਆ ਗਿਆ ਡਾਟਾ ਹੈ ਇਹ ਸਰਕਾਰੀ ਅੰਕੜੇ, ਜਿਹੜੇ ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਸਰਕਾਰੀ ਪ੍ਰਸ਼ਾਸਨਿਕ ਰਿਕਾਰਡ ਵਿੱਚ ਬੁਲਾਉਂਦੇ ਹਨ, ਵਿੱਚ ਟੈਕਸ ਰਿਕਾਰਡ, ਸਕੂਲ ਦੇ ਰਿਕਾਰਡ ਅਤੇ ਮਹੱਤਵਪੂਰਣ ਅੰਕੜੇ ਦੇ ਰਿਕਾਰਡ (ਜਿਵੇਂ ਜਨਮ ਅਤੇ ਮੌਤ ਦੀ ਰਿਜਸਟਰੀਆ) ਵਰਗੀਆਂ ਚੀਜ਼ਾਂ ਸ਼ਾਮਲ ਹੁੰਦੀਆਂ ਹਨ. ਸਰਕਾਰਾਂ ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਡਾਟਾ ਤਿਆਰ ਕਰ ਰਹੀਆਂ ਹਨ, ਕੁਝ ਮਾਮਲਿਆਂ ਵਿੱਚ, ਸੈਂਕੜੇ ਸਾਲ, ਅਤੇ ਸਮਾਜਿਕ ਵਿਗਿਆਨੀ ਲਗਭਗ ਉਦੋਂ ਤਕ ਉਨ੍ਹਾਂ ਦਾ ਸ਼ੋਸ਼ਣ ਕਰ ਰਹੇ ਹਨ ਜਿੰਨਾ ਚਿਰ ਸਮਾਜਿਕ ਵਿਗਿਆਨੀ ਹੋਣ. ਪਰ, ਕੀ ਬਦਲ ਗਿਆ ਹੈ, ਇਹ ਡਿਜੀਟਲਾਈਜ਼ੇਸ਼ਨ ਹੈ, ਜਿਸ ਨੇ ਸਰਕਾਰਾਂ ਲਈ ਡਾਟਾ ਇਕੱਠਾ ਕਰਨਾ, ਸੰਚਾਰ ਕਰਨਾ, ਸਟੋਰ ਕਰਨਾ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨਾ ਬਹੁਤ ਨਾਜ਼ੁਕ ਬਣਾ ਦਿੱਤਾ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਇਸ ਅਧਿਆਇ ਵਿੱਚ, ਮੈਂ ਤੁਹਾਨੂੰ ਇਕ ਅਧਿਐਨ ਬਾਰੇ ਦੱਸਾਂਗਾ ਜੋ ਲੇਬਰ ਅਰਥਸ਼ਾਸਤਰ (Farber 2015) ਵਿੱਚ ਇੱਕ ਬੁਨਿਆਦੀ ਬਹਿਸ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਨਿਊਯਾਰਕ ਸਿਟੀ ਸਰਕਾਰ ਦੇ ਡਿਜੀਟਲ ਟੈਕਸੀ ਮੀਟਰਾਂ ਤੋਂ ਡਾਟਾ ਮੁੜ ਦੁਹਰਾਓ. ਫਿਰ, ਬਾਅਦ ਦੇ ਚੈਪਟਰਾਂ ਵਿਚ, ਮੈਂ ਤੁਹਾਨੂੰ ਦੱਸਾਂਗਾ ਕਿ ਸਰਕਾਰ ਦੁਆਰਾ ਇਕੱਤਰ ਕੀਤੇ ਗਏ ਵੋਟਿੰਗ ਰਿਕਾਰਡਾਂ ਦਾ ਸਰਵੇਖਣ (Ansolabehere and Hersh 2012) ਅਤੇ ਇਕ ਪ੍ਰਯੋਗ (Bond et al. 2012) .

ਮੈਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ ਵੱਡੀਆਂ ਡੈਟਾ ਸ੍ਰੋਤਾਂ ਤੋਂ ਸਿੱਖਣ ਲਈ ਮੁੜ ਦੁਹਰਾਉਣ ਦਾ ਵਿਚਾਰ ਬੁਨਿਆਦੀ ਹੈ, ਅਤੇ ਇਸ ਤਰ੍ਹਾਂ, ਵੱਡੇ ਡੇਟਾ ਸ੍ਰੋਤਾਂ (ਸੈਕਸ਼ਨ 2.3) ਦੀਆਂ ਸੰਪਤੀਆਂ ਦੇ ਬਾਰੇ ਵਧੇਰੇ ਵਿਸ਼ੇਸ਼ਤਾ ਨਾਲ ਬੋਲਣ ਤੋਂ ਪਹਿਲਾਂ ਅਤੇ ਖੋਜ ਵਿੱਚ ਕਿਵੇਂ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ (ਭਾਗ 2.4), ਮੈਂ ਚਾਹੁੰਦਾ ਹਾਂ ਮੁੜ ਪੇਸ਼ ਕਰਨ ਬਾਰੇ ਆਮ ਸਲਾਹ ਦੇ ਦੋ ਭਾਗ ਪੇਸ਼ ਕਰਨ ਲਈ. ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਇਹ ਇਸ ਗੱਲ ਤੇ ਵਿਚਾਰ ਕਰਨ ਲਈ ਪ੍ਰੇਰਿਤ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਮੈਂ "ਲੱਭੇ" ਡੇਟਾ ਅਤੇ "ਡਿਜ਼ਾਈਨ ਕੀਤੇ" ਡੇਟਾ ਦੇ ਵਿਚਕਾਰ ਹੋਣ ਦੇ ਰੂਪ ਵਿੱਚ ਸੈਟ ਅਪ ਕੀਤਾ ਹੈ. ਇਹ ਨੇੜੇ ਹੈ, ਪਰ ਇਹ ਬਿਲਕੁਲ ਸਹੀ ਨਹੀਂ ਹੈ. ਹਾਲਾਂਕਿ, ਖੋਜਕਰਤਾਵਾਂ ਦੇ ਨਜ਼ਰੀਏ ਤੋਂ, ਵੱਡੇ ਡੈਟਾ ਸ੍ਰੋਤਾਂ "ਲੱਭੇ" ਹਨ, ਉਹ ਕੇਵਲ ਆਕਾਸ਼ ਤੋਂ ਨਹੀਂ ਡਿੱਗਦੇ ਹਨ. ਇਸਦੀ ਬਜਾਏ, ਖੋਜਕਰਤਾਵਾਂ ਦੁਆਰਾ "ਲੱਭੇ" ਗਏ ਡੇਟਾ ਸ੍ਰੋਤਾਂ ਨੂੰ ਕਿਸੇ ਮਕਸਦ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ. ਕਿਉਂਕਿ "ਮਿਲਿਆ" ਡਾਟਾ ਕਿਸੇ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਮੈਂ ਹਮੇਸ਼ਾਂ ਇਹ ਸਿਫਾਰਸ਼ ਕਰਦਾ ਹਾਂ ਕਿ ਤੁਸੀਂ ਲੋਕਾਂ ਅਤੇ ਪ੍ਰਕਿਰਿਆਵਾਂ ਬਾਰੇ ਜਿੰਨਾ ਹੋ ਸਕੇ, ਸਮਝਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੋ ਜੋ ਤੁਹਾਡੇ ਡੇਟਾ ਨੂੰ ਤਿਆਰ ਕੀਤੇ. ਦੂਜਾ, ਜਦੋਂ ਤੁਸੀਂ ਡੇਟਾ ਦਾ repurposing ਕਰ ਰਹੇ ਹੁੰਦੇ ਹੋ, ਇਹ ਤੁਹਾਡੀ ਸਮੱਸਿਆ ਲਈ ਆਦਰਸ਼ ਡਾਟਾਸੈਟ ਦੀ ਕਲਪਨਾ ਕਰਨਾ ਅਕਸਰ ਉਪਯੋਗੀ ਹੁੰਦਾ ਹੈ ਅਤੇ ਫਿਰ ਉਸ ਆਦਰਸ਼ ਡਾਟਾਸੈਟ ਦੀ ਤੁਲਨਾ ਉਸ ਉਪਯੋਗਕਰਤਾ ਨਾਲ ਕਰੋ ਜੋ ਤੁਸੀਂ ਵਰਤ ਰਹੇ ਹੋ. ਜੇ ਤੁਸੀਂ ਆਪਣਾ ਡਾਟਾ ਆਪਣੇ ਆਪ ਇਕੱਠਾ ਨਹੀਂ ਕੀਤਾ, ਤਾਂ ਜੋ ਤੁਸੀਂ ਚਾਹੁੰਦੇ ਹੋ ਅਤੇ ਜੋ ਕੁਝ ਤੁਸੀਂ ਚਾਹੁੰਦੇ ਹੋ ਉਸ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਅੰਤਰ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਹੈ. ਇਹਨਾਂ ਅੰਤਰਾਂ ਤੇ ਨਜ਼ਰ ਮਾਰਨ ਨਾਲ ਇਹ ਸਪੱਸ਼ਟ ਹੋ ਜਾਵੇਗਾ ਕਿ ਤੁਸੀਂ ਆਪਣੇ ਕੋਲ ਮੌਜੂਦ ਡੇਟਾ ਤੋਂ ਕੀ ਨਹੀਂ ਅਤੇ ਕੀ ਨਹੀਂ ਸਿੱਖ ਸਕਦੇ, ਅਤੇ ਇਹ ਤੁਹਾਡੇ ਵੱਲੋਂ ਇਕੱਤਰ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਨਵੇਂ ਡੈਟਾ ਦਾ ਸੁਝਾਅ ਦੇ ਸਕਦਾ ਹੈ.

ਮੇਰੇ ਤਜਰਬੇ ਵਿਚ, ਸਮਾਜਿਕ ਵਿਗਿਆਨੀ ਅਤੇ ਡੈਟਾ ਵਿਗਿਆਨੀ ਬਹੁਤ ਵੱਖਰੇ ਤਰੀਕੇ ਨਾਲ ਬਦਲੇ ਜਾਂਦੇ ਹਨ. ਸਮਾਜਿਕ ਵਿਗਿਆਨੀ, ਜੋ ਖੋਜ ਦੇ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਡੇਟਾ ਦੇ ਨਾਲ ਕੰਮ ਕਰਨ ਦੇ ਆਦੀ ਹਨ, ਅਕਸਰ ਆਪਣੀ ਸ਼ਕਤੀ ਦੀ ਅਣਦੇਖੀ ਕਰਦੇ ਹੋਏ repurposed ਡੇਟਾ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ. ਦੂਜੇ ਪਾਸੇ, ਡਾਟਾ ਵਿਗਿਆਨਕ ਆਪਣੀ ਕਮਜ਼ੋਰੀਆਂ ਦੀ ਅਣਦੇਖੀ ਕਰਦੇ ਹੋਏ repurposed ਡੇਟਾ ਦੇ ਲਾਭਾਂ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਆਮ ਤੌਰ ਤੇ ਤੇਜ਼ ਹੁੰਦੇ ਹਨ. ਕੁਦਰਤੀ ਤੌਰ ਤੇ, ਸਭ ਤੋਂ ਵਧੀਆ ਤਰੀਕਾ ਇੱਕ ਹਾਈਬ੍ਰਿਡ ਹੈ. ਅਰਥਾਤ, ਖੋਜਕਾਰਾਂ ਨੂੰ ਵੱਡੇ ਡਾਟਾ ਸ੍ਰੋਤਾਂ ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਸਮਝਣ ਦੀ ਲੋੜ ਹੈ - ਚੰਗੇ ਅਤੇ ਬੁਰੇ ਦੋਨੋ- ਅਤੇ ਫਿਰ ਪਤਾ ਲਗਾਓ ਕਿ ਉਨ੍ਹਾਂ ਤੋਂ ਕਿਵੇਂ ਸਿੱਖਣਾ ਹੈ. ਅਤੇ, ਇਹ ਇਸ ਅਧਿਆਇ ਦੇ ਬਾਕੀ ਭਾਗਾਂ ਲਈ ਯੋਜਨਾ ਹੈ. ਅਗਲੇ ਭਾਗ ਵਿੱਚ, ਮੈਂ ਵੱਡੇ ਡੈਟਾ ਸ੍ਰੋਤਾਂ ਦੀਆਂ ਦਸ ਆਮ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦਾ ਵਰਣਨ ਕਰਾਂਗਾ. ਫਿਰ, ਹੇਠ ਲਿਖੇ ਭਾਗਾਂ ਵਿੱਚ, ਮੈਂ ਤਿੰਨ ਖੋਜ ਦੇ ਤਰੀਕਿਆਂ ਦਾ ਵਰਣਨ ਕਰਾਂਗਾ ਜੋ ਅਜਿਹੇ ਡਾਟਾ ਨਾਲ ਚੰਗੀ ਤਰਾਂ ਕੰਮ ਕਰ ਸਕਦੇ ਹਨ.