2.3.9 ਗੰਦੀ

ਵੱਡੇ ਡਾਟਾ ਸਰੋਤ ਜੰਕ ਅਤੇ ਸਪੈਮ ਨਾਲ ਲੋਡ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ.

ਕੁਝ ਖੋਜਕਰਤਾਵਾਂ ਦਾ ਮੰਨਣਾ ਹੈ ਕਿ ਵੱਡੇ ਡੈਟਾ ਸ੍ਰੋਤ, ਖਾਸ ਕਰਕੇ ਔਨਲਾਈਨ ਸਰੋਤ, ਮੂਲ ਹਨ ਕਿਉਂਕਿ ਉਹਨਾਂ ਨੂੰ ਆਪਣੇ-ਆਪ ਇਕੱਠਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ. ਅਸਲ ਵਿੱਚ, ਜਿਨ੍ਹਾਂ ਲੋਕਾਂ ਨੇ ਵੱਡੇ ਡੇਟਾ ਸ੍ਰੋਤਾਂ ਨਾਲ ਕੰਮ ਕੀਤਾ ਹੈ ਉਹ ਜਾਣਦੇ ਹਨ ਕਿ ਉਹ ਅਕਸਰ ਗੰਦੇ ਹੁੰਦੇ ਹਨ. ਭਾਵ, ਉਹ ਅਕਸਰ ਉਹ ਅਜਿਹੇ ਡੇਟਾ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ ਜੋ ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਦਿਲਚਸਪੀ ਦੀ ਅਸਲੀ ਕਿਰਿਆ ਨੂੰ ਪ੍ਰਭਾਵਤ ਨਹੀਂ ਕਰਦੇ. ਜ਼ਿਆਦਾਤਰ ਸਮਾਜਿਕ ਵਿਗਿਆਨੀ ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ ਸੋਸ਼ਲ ਸਰਵੇਖਣ ਡਾਟਾ ਨੂੰ ਸਾਫ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਜਾਣਦੇ ਹਨ, ਪਰ ਵੱਡੇ ਡਾਟਾ ਸ੍ਰੋਤਾਂ ਦੀ ਸਫਾਈ ਵਧੇਰੇ ਔਖੀ ਲਗਦੀ ਹੈ. ਮੈਨੂੰ ਲਗਦਾ ਹੈ ਕਿ ਇਸ ਮੁਸ਼ਕਲ ਦਾ ਅੰਤਮ ਸਰੋਤ ਇਹ ਹੈ ਕਿ ਇਹਨਾਂ ਵਿੱਚੋਂ ਬਹੁਤ ਸਾਰੇ ਵੱਡੇ ਪੱਧਰ ਦੇ ਡੇਟਾ ਸ੍ਰੋਤਾਂ ਦੀ ਵਰਤੋਂ ਖੋਜ ਦੇ ਲਈ ਨਹੀਂ ਕੀਤੀ ਜਾਣੀ ਚਾਹੀਦੀ ਸੀ, ਅਤੇ ਇਸ ਤਰ੍ਹਾਂ ਉਹ ਇਕੱਤਰ ਕੀਤੇ, ਸਟੋਰ ਕੀਤੇ ਅਤੇ ਦਸਤਾਵੇਜ਼ ਦੇ ਰੂਪ ਵਿੱਚ ਨਹੀਂ ਜਾਂਦੇ ਜਿਸ ਨਾਲ ਡਾਟਾ ਸਫਾਈ ਦੀ ਸੁਵਿਧਾ ਹੁੰਦੀ ਹੈ.

ਗੰਦੇ ਡਿਜੀਟਲ ਟਰੇਸ ਡੇਟਾ ਦੇ ਖ਼ਤਰਿਆਂ ਨੂੰ ਬੈਕ ਅਤੇ ਸਾਥੀ ' (2010) ਦੁਆਰਾ ਦਰਸਾਇਆ ਗਿਆ ਹੈ 11 ਸਤੰਬਰ 2001 ਦੇ ਹਮਲੇ ਦੇ ਭਾਵਨਾਤਮਕ ਪ੍ਰਤੀਕ੍ਰਿਆ ਦਾ ਅਧਿਐਨ, ਜਿਸ ਬਾਰੇ ਮੈਂ ਥੋੜੇ ਸਮੇਂ ਵਿੱਚ ਇਸ ਅਧਿਆਇ ਵਿੱਚ ਜ਼ਿਕਰ ਕੀਤਾ ਸੀ. ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਖਾਸ ਤੌਰ 'ਤੇ ਮਹੀਨਿਆਂ ਜਾਂ ਸਾਲਾਂ ਤੋਂ ਇਕੱਤਰ ਕੀਤੇ ਪਿਛੋਕੜ ਵਾਲੇ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਦੁਖਦਾਈ ਘਟਨਾਵਾਂ ਦੇ ਜਵਾਬ ਦਾ ਅਧਿਐਨ ਕੀਤਾ. ਪਰ, ਵਾਪਸ ਅਤੇ ਸਹਿਯੋਗੀਆਂ ਨੂੰ ਡਿਜੀਟਲ ਟਰੇਸ ਦਾ ਇੱਕ ਹਮੇਸ਼ਾ-ਸਦਾ ਲਈ ਸ੍ਰੋਤ ਮਿਲ ਗਿਆ- ਟਾਈਮਸਟੈਪਡ, 85,000 ਅਮਰੀਕੀ ਪੇਜ਼ਰਾਂ ਦੇ ਆਪਣੇ ਆਪ ਰਿਕਾਰਡ ਕੀਤੇ ਗਏ ਸੁਨੇਹੇ- ਅਤੇ ਇਸ ਨੇ ਉਹਨਾਂ ਨੂੰ ਬਹੁਤ ਵਧੀਆ ਸਮਾਂ-ਸੀਮਾ ਤੇ ਭਾਵਨਾਤਮਕ ਪ੍ਰਤੀਕ੍ਰਿਆ ਦਾ ਅਧਿਐਨ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਇਆ. ਉਨ੍ਹਾਂ ਨੇ (1) ਉਦਾਸੀ (ਉਦਾਹਰਨ ਲਈ "ਰੋਣ" ਅਤੇ "ਦੁੱਖ"), (2) ਚਿੰਤਾ ਨਾਲ ਸੰਬੰਧਿਤ ਸ਼ਬਦਾਂ ਦੀ ਪ੍ਰਤੀਸ਼ਤ ਦੁਆਰਾ ਪੇਜਰ ਸੁਨੇਹਿਆਂ ਦੀ ਭਾਵਨਾਤਮਕ ਸਮਗਰੀ ਨੂੰ ਕੋਡਿੰਗ ਕਰਕੇ 11 ਸਤੰਬਰ ਦੀ ਇਕ ਮਿੰਟ ਪ੍ਰਤੀ ਮਿੰਟ ਦੀ ਭਾਵਨਾਤਮਕ ਸਮੇਂ ਦੀ ਰਚਨਾ ਕੀਤੀ ਹੈ ( ਉਦਾਹਰਨ ਲਈ, "ਚਿੰਤਤ" ਅਤੇ "ਡਰਾਉਣਾ"), ਅਤੇ (3) ਗੁੱਸਾ (ਜਿਵੇਂ "ਨਫ਼ਰਤ" ਅਤੇ "ਨਾਜ਼ੁਕ"). ਉਹਨਾਂ ਨੇ ਪਾਇਆ ਕਿ ਪੂਰੇ ਦਿਨ ਦੌਰਾਨ ਦੁਖ ਅਤੇ ਚਿੰਤਾ ਦਿਨੋ-ਦਿਨ ਵਧਦੀ ਰਹਿੰਦੀ ਹੈ, ਪਰ ਇਹ ਸਾਰਾ ਦਿਨ ਗੁੱਸੇ ਵਿੱਚ ਲਗਾਤਾਰ ਵਾਧਾ ਹੋਇਆ ਹੈ. ਇਹ ਖੋਜ ਹਮੇਸ਼ਾ-ਹਮੇਸ਼ਾ ਲਈ ਡਾਟਾ ਸ੍ਰੋਤਾਂ ਦੀ ਸ਼ਕਤੀ ਦਾ ਇਕ ਸ਼ਾਨਦਾਰ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਲੱਗਦਾ ਹੈ: ਜੇ ਰਵਾਇਤੀ ਡਾਟਾ ਸਰੋਤਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਤਾਂ ਇਹ ਅਚਾਨਕ ਹੋਣ ਵਾਲੀ ਘਟਨਾ ਦੇ ਤੁਰੰਤ ਜਵਾਬ ਦੀ ਅਜਿਹੀ ਉੱਚ-ਰੈਜ਼ੋਲੂਸ਼ਨ ਟਾਈਮਲਾਈਨ ਹਾਸਲ ਕਰਨਾ ਅਸੰਭਵ ਸੀ.

ਕੇਵਲ ਇਕ ਸਾਲ ਬਾਅਦ, ਹਾਲਾਂਕਿ, ਸਿੰਥੀਆ ਪੁਰੀ (2011) ਨੇ ਅੰਕੜੇ ਨੂੰ ਧਿਆਨ ਨਾਲ ਵੇਖਿਆ ਉਸ ਨੇ ਦੇਖਿਆ ਕਿ ਇਕ ਪੇਜਰ ਦੁਆਰਾ ਬਹੁਤ ਸਾਰੇ ਗੁੱਸੇ ਨਾਲ ਭਰੇ ਸੁਨੇਹੇ ਪੈਦਾ ਹੋਏ ਸਨ ਅਤੇ ਉਹ ਸਾਰੇ ਇਕੋ ਜਿਹੇ ਸਨ. ਇੱਥੇ ਉਹ ਕਮਾਲ ਦੇ ਗੁੱਸੇ ਹੋਏ ਸੰਦੇਸ਼ਾਂ ਨੇ ਕਿਹਾ ਹੈ:

"ਚਾਲੂ NT ਮਸ਼ੀਨ ਵਿਚ ਕੈਬਨਿਟ [name] ਨੂੰ [name] ਨੂੰ [ਸਥਿਤੀ ਦੇ]: ਨਾਜ਼ੁਕ: [ਮਿਤੀ ਅਤੇ ਟਾਈਮ]"

ਇਹ ਸੁਨੇਹੇ ਗੁੱਸੇ ਨਾਲ ਲਿੱਟੇ ਗਏ ਸਨ ਕਿਉਂਕਿ ਉਹਨਾਂ ਨੇ "ਸਿਵਿਧਾਲ" ਸ਼ਬਦ ਸ਼ਾਮਲ ਕੀਤਾ ਹੈ ਜੋ ਆਮਤੌਰ ਤੇ ਗੁੱਸੇ ਦਾ ਸੰਕੇਤ ਕਰ ਸਕਦਾ ਹੈ ਪਰੰਤੂ ਇਸ ਕੇਸ ਵਿੱਚ ਨਹੀਂ ਹੈ. ਇਸ ਸਿੰਗਲ ਆਟੋਮੈਟਿਕ ਪੇਜਰ ਤੋਂ ਪੈਦਾ ਹੋਏ ਸੁਨੇਹਿਆਂ ਨੂੰ ਹਟਾਉਣ ਨਾਲ ਪੂਰੀ ਤਰ੍ਹਾਂ ਗੁੱਸੇ ਵਿੱਚ ਦਿਨ ਦੇ (ਐਪੀਟੀ 2.4) ਤੇ ਸਪੱਸ਼ਟ ਵਾਧਾ ਖਤਮ ਹੋ ਜਾਂਦਾ ਹੈ. ਦੂਜੇ ਸ਼ਬਦਾਂ ਵਿੱਚ, Back, Küfner, and Egloff (2010) ਵਿੱਚ ਮੁੱਖ ਨਤੀਜਾ ਇੱਕ ਪੇਜਰ ਦਾ ਇੱਕ ਅਸਲਾ ਸੀ. ਜਿਵੇਂ ਕਿ ਇਹ ਉਦਾਹਰਨ ਦਰਸਾਉਂਦਾ ਹੈ, ਮੁਕਾਬਲਤਨ ਗੁੰਝਲਦਾਰ ਅਤੇ ਗੁੰਝਲਦਾਰ ਡਾਟਾ ਦੇ ਮੁਕਾਬਲਤਨ ਸਧਾਰਨ ਵਿਸ਼ਲੇਸ਼ਣ ਵਿੱਚ ਗੰਭੀਰਤਾ ਨਾਲ ਗਲਤ ਜਾਣ ਦੀ ਸੰਭਾਵਨਾ ਹੁੰਦੀ ਹੈ.

ਚਿੱਤਰ 2.4: ਗੁਜਰਾਤ ਵਿਚ 11 ਸਤੰਬਰ, 2001 ਦੇ ਦੌਰਾਨ 85,000 ਅਮਰੀਕਨ ਪੇਜਰ (ਬੈਕ, ਕੂਨਰ, ਅਤੇ ਈਲੌਫ 2010, 2011; ਪਰੀਯ 2011) ਦੇ ਅਧਾਰ 'ਤੇ ਗੁੱਸੇ ਦਾ ਅਨੁਮਾਨਤ ਰੁਝਾਨ. ਮੂਲ ਰੂਪ ਵਿੱਚ, ਬੈਕ, ਕੁਫਰਰ, ਅਤੇ ਈਗਲਫ (2010) ਨੇ ਦਿਨ ਭਰ ਗੁੱਸੇ ਨੂੰ ਵਧਾਉਣ ਦਾ ਤਰੀਕਾ ਪੇਸ਼ ਕੀਤਾ. ਹਾਲਾਂਕਿ, ਇਹਨਾਂ ਵਿੱਚੋਂ ਜ਼ਿਆਦਾਤਰ ਸਪੱਸ਼ਟ ਰੂਪ ਵਿਚ ਗੁੱਸੇਖ਼ੋਰ ਸੰਦੇਸ਼ ਇੱਕ ਸਿੰਗਲ ਪੇਜਰ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਸਨ ਜੋ ਵਾਰ-ਵਾਰ ਸੁਨੇਹਾ ਭੇਜਦਾ ਹੈ: ਰੀਬੂਟ ਐਨਟੀ ਮਸ਼ੀਨ [ਨਾਮ] ਕੈਬਨਿਟ ਵਿੱਚ [ਨਾਮ] [ਸਥਾਨ] ਤੇ: ਸਥਾਨਿਕ: [ਤਾਰੀਖ ਅਤੇ ਸਮਾਂ] ਇਸ ਸੁਨੇਹਾ ਨੂੰ ਹਟਾ ਕੇ, ਗੁੱਸੇ ਵਿੱਚ ਸਪੱਸ਼ਟ ਵਾਧਾ ਅਲੋਪ ਹੋ ਜਾਂਦਾ ਹੈ (Pury 2011; Back, Küfner, ਅਤੇ Egloff 2011). ਪਰੀ (2011) ਤੋਂ ਅੰਕਿਤ, ਅੰਕੜਾ 1 ਬੀ.

ਚਿੱਤਰ 2.4: ਗੁਜਰਾਤ ਵਿਚ 11 ਸਤੰਬਰ, 2001 ਦੇ ਦੌਰਾਨ 85,000 ਅਮਰੀਕਨ ਪੇਜਰ (Back, Küfner, and Egloff 2010, 2011; Pury 2011) ਅਧਾਰ 'ਤੇ ਗੁੱਸੇ ਦਾ ਅਨੁਮਾਨਤ ਰੁਝਾਨ. ਮੂਲ ਰੂਪ ਵਿੱਚ, Back, Küfner, and Egloff (2010) ਨੇ ਦਿਨ ਭਰ ਗੁੱਸੇ ਨੂੰ ਵਧਾਉਣ ਦਾ ਤਰੀਕਾ ਪੇਸ਼ ਕੀਤਾ. ਹਾਲਾਂਕਿ, ਇਨ੍ਹਾਂ ਵਿੱਚੋਂ ਜ਼ਿਆਦਾਤਰ ਸਪੱਸ਼ਟ ਰੂਪ ਵਿਚ ਗੁੱਸੇਖ਼ੋਰ ਸੰਦੇਸ਼ ਇੱਕ ਸਿੰਗਲ ਪੇਜਰ ਦੁਆਰਾ ਉਤਪੰਨ ਹੋਏ ਸਨ ਜੋ ਬਾਰ-ਬਾਰ ਹੇਠਾਂ ਦਿੱਤੇ ਸੰਦੇਸ਼ ਨੂੰ ਭੇਜਦਾ ਹੈ: "ਰੀਬੂਟ ਐਨਟੀ ਮਸ਼ੀਨ [ਨਾਮ] ਕੈਬਨਿਟ [ਨਾਮ] ਵਿਚ [ਸਥਾਨ] ਤੇ: ਸਥਾਨਿਕ: [ਤਾਰੀਖ ਅਤੇ ਸਮਾਂ]". ਇਸ ਸੁਨੇਹਾ ਨੂੰ ਹਟਾ ਕੇ, ਗੁੱਸੇ ਵਿੱਚ ਸਪੱਸ਼ਟ ਵਾਧਾ ਅਲੋਪ ਹੋ ਜਾਂਦਾ ਹੈ (Pury 2011; Back, Küfner, and Egloff 2011) . Pury (2011) ਤੋਂ ਅੰਕਿਤ, ਅੰਕੜਾ 1 ਬੀ.

ਗੰਦੇ ਡਾਟੇ, ਜੋ ਅਣਜਾਣੇ ਤੌਰ ਤੇ ਬਣਾਇਆ ਗਿਆ ਹੈ- ਜਿਵੇਂ ਕਿ ਇਕ ਰੌਲੇ ਪੇਜਰ ਤੋਂ - ਇੱਕ ਬਹੁਤ ਧਿਆਨ ਨਾਲ ਖੋਜਕਰਤਾ ਦੁਆਰਾ ਖੋਜਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਕੁਝ ਔਨਲਾਈਨ ਸਿਸਟਮ ਵੀ ਹਨ ਜੋ ਇਰਾਦਤਨ ਸਪੈਮਰਾਂ ਨੂੰ ਆਕਰਸ਼ਤ ਕਰਦੇ ਹਨ ਇਹ ਸਪੈਮਰ ਸਰਗਰਮੀ ਨਾਲ ਜਾਅਲੀ ਡਾਟਾ ਬਣਾਉਂਦੇ ਹਨ ਅਤੇ ਆਮ ਤੌਰ ਤੇ ਮੁਨਾਫ਼ੇ ਦੇ ਕੰਮ ਤੋਂ ਪ੍ਰੇਰਿਤ ਹੁੰਦੇ ਹਨ ਅਤੇ ਉਹਨਾਂ ਦੇ ਸਪੈਮਿੰਗ ਨੂੰ ਗੁਪਤ ਰੱਖਣ ਲਈ ਬਹੁਤ ਮਿਹਨਤ ਕਰਦੇ ਹਨ. ਉਦਾਹਰਨ ਲਈ, ਟਵਿੱਟਰ 'ਤੇ ਸਿਆਸੀ ਗਤੀਵਿਧੀਆਂ ਵਿੱਚ ਘੱਟੋ-ਘੱਟ ਕੁਝ ਗੁੰਝਲਦਾਰ ਆਧੁਨਿਕ ਸਪੈਮ ਸ਼ਾਮਿਲ ਹੈ, ਜਿਸਦੇ ਨਾਲ ਕੁਝ ਸਿਆਸੀ ਕਾਰਨਾਂ ਨੂੰ ਅਸਲ ਵਿੱਚ ਉਹ (Ratkiewicz et al. 2011) ਨਾਲੋਂ ਵਧੇਰੇ ਪ੍ਰਸਿੱਧ ਦੇਖਣ ਲਈ ਜਾਣਬੁੱਝ ਕੇ ਬਣਾਇਆ ਗਿਆ ਹੈ. ਬਦਕਿਸਮਤੀ ਨਾਲ, ਇਸ ਇਰਾਦਤਨ ਸਪੈਮ ਨੂੰ ਹਟਾਉਣ ਤੋਂ ਕਾਫੀ ਮੁਸ਼ਕਲ ਹੋ ਸਕਦਾ ਹੈ.

ਬੇਸ਼ੱਕ, ਜਿਸ ਨੂੰ ਗੰਦੇ ਡਾਟੇ ਨੂੰ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ, ਉਹ ਇਸ ਗੱਲ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਖੋਜ ਪ੍ਰਸ਼ਨ ਤੇ. ਉਦਾਹਰਣ ਵਜੋਂ, ਵਿਕੀਪੀਡੀਆ ਨੂੰ ਬਹੁਤ ਸਾਰੇ ਸੰਪਾਦਨ ਆਟੋਮੇਟਿਡ ਬੋਟਸ ਦੁਆਰਾ ਬਣਾਏ ਗਏ ਹਨ (Geiger 2014) . ਜੇ ਤੁਸੀਂ ਵਿਕੀਪੀਡੀਆ ਦੇ ਵਾਤਾਵਰਣ ਵਿਚ ਦਿਲਚਸਪੀ ਰੱਖਦੇ ਹੋ, ਤਾਂ ਇਹ ਬੌਟ ਬਣਾਏ ਗਏ ਸੰਪਾਦਨਾਂ ਮਹੱਤਵਪੂਰਨ ਹਨ. ਪਰ ਜੇ ਤੁਸੀਂ ਵਿਕਿਪੀਡਿਆ ਵਿੱਚ ਮਨੁੱਖਾਂ ਦਾ ਯੋਗਦਾਨ ਪਾਉਂਦੇ ਹੋ ਤਾਂ ਇਸ ਵਿੱਚ ਦਿਲਚਸਪੀ ਰੱਖਦੇ ਹੋ, ਫਿਰ ਬੌਟ ਬਣਾਏ ਗਏ ਸੰਪਾਦਨਾਂ ਨੂੰ ਬਾਹਰ ਰੱਖਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ.

ਕੋਈ ਇਕੋ ਅੰਕੜਾ ਤਕਨੀਕ ਜਾਂ ਪਹੁੰਚ ਨਹੀਂ ਹੈ ਜੋ ਇਹ ਸੁਨਿਸ਼ਚਿਤ ਕਰ ਸਕੇ ਕਿ ਤੁਸੀਂ ਆਪਣੇ ਗੰਦੇ ਡਾਟਾ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਾਫ਼ ਕਰ ਲਿਆ ਹੈ. ਅੰਤ ਵਿੱਚ, ਮੈਂ ਸੋਚਦਾ ਹਾਂ ਕਿ ਗੰਦਾ ਡਾਟੇ ਨਾਲ ਧੋਖਾਧੜੀ ਹੋਣ ਤੋਂ ਬਚਣ ਦਾ ਸਭ ਤੋਂ ਵਧੀਆ ਤਰੀਕਾ ਇਹ ਹੈ ਕਿ ਤੁਹਾਡੇ ਡੇਟਾ ਨੂੰ ਕਿਵੇਂ ਬਣਾਇਆ ਗਿਆ ਸੀ ਇਸ ਬਾਰੇ ਜਿੰਨਾ ਹੋ ਸਕੇ ਵੱਧ ਤੋਂ ਵੱਧ ਸਮਝਣਾ.