2.3.2.6 Dirty

ਵੱਡੇ ਡਾਟਾ ਸਰੋਤ ਜੰਕ ਅਤੇ ਸਪੈਮ ਨਾਲ ਲੋਡ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ.

ਕੁਝ ਵਿਗਿਆਨੀ ਮੰਨਦੇ ਹਨ ਕਿ ਵੱਡੇ ਡਾਟਾ ਸਰੋਤ, ਖਾਸ ਕਰਕੇ ਆਨਲਾਈਨ ਸਰੋਤ ਤੱਕ ਜਿਹੜੇ, ਮੁੱਢਲਾ ਹਨ, ਕਿਉਕਿ ਉਹ ਖੁਦ ਹੀ ਇਕੱਠੇ ਕੀਤੇ ਹਨ. ਅਸਲ ਵਿਚ, ਉਹ ਲੋਕ ਜੋ ਵੱਡੇ ਡਾਟਾ ਸਰੋਤ ਦੇ ਨਾਲ ਕੰਮ ਕੀਤਾ ਹੈ, ਜੋ ਕਿ ਪਤਾ ਉਹ ਅਕਸਰ ਗੰਦੇ ਹਨ. ਜੋ ਕਿ ਹੈ, ਉਹ ਅਕਸਰ ਡਾਟਾ ਖੋਜਕਾਰ ਨੂੰ ਵਿਆਜ ਦੀ ਅਸਲੀ ਕਾਰਵਾਈ ਪ੍ਰਗਟ ਨਾ ਕਰਦੇ ਸ਼ਾਮਲ ਹਨ. ਕਈ ਸਮਾਜਿਕ ਵਿਗਿਆਨੀ ਹੀ ਵੱਡੇ ਪੈਮਾਨੇ ਸਮਾਜਿਕ ਸਰਵੇਖਣ ਡਾਟਾ ਦੀ ਸਫਾਈ, ਪਰ ਵੱਡੇ ਡਾਟਾ ਸਰੋਤ ਦੀ ਸਫਾਈ ਹੈ ਦੋ ਕਾਰਨ ਲਈ ਹੋਰ ਵੀ ਮੁਸ਼ਕਲ ਦੀ ਪ੍ਰਕਿਰਿਆ ਦੇ ਨਾਲ ਜਾਣੂ ਹਨ: 1) ਉਹ 2) ਖੋਜਕਾਰ ਖੋਜਕਾਰ ਲਈ ਖੋਜਕਾਰ ਅਤੇ ਦੁਆਰਾ ਬਣਾਇਆ ਗਿਆ ਸੀ, ਨਾ ਆਮ ਤੌਰ 'ਤੇ ਨੂੰ ਘੱਟ ਸਮਝ ਹੈ ਉਹ ਨੂੰ ਬਣਾਇਆ ਗਿਆ ਸੀ.

ਗੰਦੇ ਡਿਜ਼ੀਟਲ ਟਰੇਸ ਡਾਟਾ ਦੇ ਖ਼ਤਰੇ ਵਾਪਸ ਅਤੇ 'ਸਾਥੀ ਦੁਆਰਾ ਦਰਸਾਇਆ ਰਹੇ ਹਨ (2010) 11 ਸਤੰਬਰ, ਦੇ ਹਮਲੇ ਨੂੰ ਜਜ਼ਬਾਤੀ ਜਵਾਬ 2001 ਖੋਜਕਾਰ ਆਮ ਤੌਰ ਮਹੀਨੇ ਜ ਵੀ ਸਾਲ ਵੱਧ ਇਕੱਠੇ ਕੀਤੇ ਵਿਆਪੀ ਡਾਟਾ ਵਰਤ ਦੁਖਦਾਈ ਘਟਨਾ ਦਾ ਜਵਾਬ ਦਾ ਅਧਿਐਨ ਦਾ ਅਧਿਐਨ. ਪਰ, ਵਾਪਸ ਅਤੇ ਸਾਥੀ 85,000 ਅਮਰੀਕੀ ਇੱਕ ਹਮੇਸ਼ਾ-'ਤੇ ਡਿਜ਼ੀਟਲ ਟਰੇਸ-ਮੋਹਰ ਦੇ ਸਰੋਤ, ਆਪ ਹੀ ਦਰਜ ਸੁਨੇਹੇ ਨੂੰ ਮਿਲਿਆ ਪੇਜ਼ਰ-ਅਤੇ ਇਸ ਖੋਜਕਾਰ ਇੱਕ ਬਹੁਤ ਫਾਈਨਰ ਅਤੇਲਾਗਤ ਤੇ ਜਜ਼ਬਾਤੀ ਜਵਾਬ ਦਾ ਅਧਿਐਨ ਕਰਨ ਲਈ ਯੋਗ ਹੈ. ਵਾਪਸ ਅਤੇ ਸਾਥੀ ਨੂੰ (1) ਦੁੱਖ ਸਬੰਧਤ ਸ਼ਬਦ ਦੀ ਪ੍ਰਤੀਸ਼ਤਤਾ ਦੇ ਕੇ ਪੇਜ਼ਰ ਸੁਨੇਹੇ ਦੀ ਭਾਵਨਾਤਮਕ ਸਮੱਗਰੀ ਨੂੰ ਕੋਡਿੰਗ ਦੇ ਕੇ ਇੱਕ ਮਿੰਟ-ਕੇ-ਮਿੰਟ ਸਤੰਬਰ 11 ਦੇ ਭਾਵਨਾਤਮਕ ਟਾਈਮਲਾਈਨ ਬਣਾਇਆ (ਉਦਾਹਰਨ ਲਈ, ਰੋਣਾ, ਸੋਗ), (2) ਚਿੰਤਾ (ਉਦਾਹਰਨ ਲਈ, ਚਿੰਤਾ, ਡਰ), ਅਤੇ (3) ਕ੍ਰੋਧ (ਉਦਾਹਰਨ ਲਈ, ਨਫ਼ਰਤ, ਨਾਜ਼ੁਕ). ਉਹ ਪਤਾ ਲੱਗਿਆ ਹੈ ਕਿ ਉਦਾਸੀ ਅਤੇ ਚਿੰਤਾ ਮਜ਼ਬੂਤ ​​ਪੈਟਰਨ ਬਿਨਾ ਦਿਨ ਭਰ ਵਿਚ ਉਤਰਾਅ, ਪਰ ਦਿਨ ਭਰ ਕ੍ਰੋਧ ਵਿੱਚ ਇੱਕ ਖਟਕਣ ਵਾਧਾ ਸੀ. ਮਿਆਰੀ ਢੰਗ ਵਰਤ ਕੇ ਇਸ ਨੂੰ ਅਚਾਨਕ ਘਟਨਾ ਨੂੰ ਤੁਰੰਤ ਜਵਾਬ ਦੇ ਅਜਿਹੇ ਇੱਕ ਉੱਚ-ਰੈਜ਼ੋਲੂਸ਼ਨ ਟਾਈਮਲਾਈਨ ਕੋਲ ਕਰਨ ਲਈ ਅਸੰਭਵ ਹੋ ਜਾਵੇਗਾ: ਇਹ ਖੋਜ ਹਮੇਸ਼ਾ-'ਤੇ ਡਾਟਾ ਸਰੋਤ ਦੀ ਸ਼ਕਤੀ ਦਾ ਇੱਕ ਸ਼ਾਨਦਾਰ ਮਿਸਾਲ ਹੋਣ ਦੀ ਲਗਦੀ ਹੈ.

ਬਸ ਇੱਕ ਸਾਲ ਬਾਅਦ ਵਿੱਚ, ਪਰ, Cynthia Pury (2011) ਡਾਟਾ ਤੇ ਹੋਰ ਧਿਆਨ ਨਾਲ ਦੇਖਿਆ. ਉਸ ਨੇ ਦੇਖਿਆ ਕਿ ਸ਼ਾਇਦ ਗੁੱਸੇ ਸੁਨੇਹੇ ਦੀ ਇੱਕ ਵੱਡੀ ਗਿਣਤੀ ਨੂੰ ਇੱਕ ਸਿੰਗਲ ਪੇਜ਼ਰ ਕੇ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ ਅਤੇ ਉਹ ਸਾਰੇ ਇੱਕੋ ਸਨ. ਇੱਥੇ ਕੀ ਹੈ ਜਿਹੜੇ ਸ਼ਾਇਦ ਗੁੱਸੇ ਸੁਨੇਹੇ ਨੇ ਕਿਹਾ ਹੈ:

"ਚਾਲੂ NT ਮਸ਼ੀਨ ਵਿਚ ਕੈਬਨਿਟ [name] ਨੂੰ [name] ਨੂੰ [ਸਥਿਤੀ ਦੇ]: ਨਾਜ਼ੁਕ: [ਮਿਤੀ ਅਤੇ ਟਾਈਮ]"

ਇਹ ਸੁਨੇਹੇ ਗੁੱਸੇ ਦਾ ਲੇਬਲ ਕੀਤਾ ਗਿਆ ਸੀ, ਕਿਉਕਿ ਉਹ ਸ਼ਬਦ "ਨਾਜ਼ੁਕ", ਜੋ ਕਿ ਆਮ ਤੌਰ 'ਤੇ ਗੁੱਸੇ ਨੂੰ ਪਤਾ ਲੱਗਦਾ ਹੈ, ਪਰ ਇਸ ਮਾਮਲੇ' ਚ ਨਾ ਕਰਦਾ ਹੈ ਕਰ ਸਕਦਾ ਹੈ ਵੀ ਸ਼ਾਮਲ ਸੀ. ਇਸ ਸਿੰਗਲ ਆਟੋਮੈਟਿਕ ਪੇਜ਼ਰ ਕੇ ਤਿਆਰ ਸੁਨੇਹੇ ਨੂੰ ਹਟਾਉਣ ਨੂੰ ਪੂਰੀ ਦਿਨ (ਚਿੱਤਰ 2.2) ਦੇ ਕੋਰਸ 'ਤੇ ਗੁੱਸੇ ਵਿੱਚ ਜ਼ਾਹਰ ਵਾਧਾ ਖਤਮ ਕਰਦਾ ਹੈ. ਹੋਰ ਸ਼ਬਦ ਵਿੱਚ, ਵਿੱਚ ਮੁੱਖ ਨਤੀਜੇ ਦੇ Back, Küfner, and Egloff (2010) ਇਕ ਪੇਜ਼ਰ ਦਾ ਇੱਕ ਲੱਭਤ ਸੀ. ਇਸ ਉਦਾਹਰਨ ਲੱਗਦਾ ਹੈ ਦੇ ਰੂਪ ਵਿੱਚ, ਮੁਕਾਬਲਤਨ ਗੁੰਝਲਦਾਰ ਹੈ ਅਤੇ ਘੜਮੱਸ ਡਾਟਾ ਦੇ ਮੁਕਾਬਲਤਨ ਸਧਾਰਨ ਵਿਸ਼ਲੇਸ਼ਣ ਗੰਭੀਰਤਾ ਨਾਲ ਗਲਤ ਹੋ ਜਾਣ ਦਾ ਸਮਰੱਥਾ ਹੈ.

ਚਿੱਤਰ 2.2: 11 ਸਤੰਬਰ, 2001 ਦੇ ਕੋਰਸ 85,000 ਅਮਰੀਕੀ ਪੇਜ਼ਰ 'ਤੇ ਆਧਾਰਿਤ' ਤੇ ਗੁੱਸੇ ਵਿੱਚ ਅਨੁਮਾਨਿਤ ਰੁਝਾਨ (ਵਾਪਸ, Küfner, ਅਤੇ Egloff 2010; Pury 2011 ਨੂੰ; ਵਾਪਸ, Küfner, ਅਤੇ Egloff 2011). ਮੂਲ, ਵਾਪਸ, Küfner, ਅਤੇ Egloff (2010) ਦਿਨ ਭਰ ਕ੍ਰੋਧ ਨੂੰ ਵਧਾਉਣ ਦਾ ਇੱਕ ਪੈਟਰਨ ਹੈ. ਨਾਜ਼ੁਕ:: [ਮਿਤੀ ਅਤੇ ਟਾਈਮ] [ਦੀ ਸਥਿਤੀ] ਤੇ ਮੰਤਰੀ ਮੰਡਲ ਵਿਚ ਚਾਲੂ NT ਮਸ਼ੀਨ [name] ਨੂੰ [name]: ਪਰ, ਇਹ ਜ਼ਾਹਰ ਗੁੱਸੇ ਸੁਨੇਹੇ ਦਾ ਸਭ ਨੂੰ ਇੱਕ ਸਿੰਗਲ ਪੇਜ਼ਰ ਹੈ, ਜੋ ਕਿ ਵਾਰ-ਵਾਰ ਦਿੱਤੇ ਸੁਨੇਹੇ ਨੂੰ ਬਾਹਰ ਭੇਜਿਆ ਦੁਆਰਾ ਬਣਾਈ ਗਏ ਸਨ. ਇਹ ਸੁਨੇਹਾ ਦੇ ਨਾਲ ਹਟਾਇਆ, ਗੁੱਸੇ ਵਿਚ ਜ਼ਾਹਰ ਵਾਧਾ ਗਾਇਬ (Pury 2011 ਨੂੰ; ਵਾਪਸ, Küfner, ਅਤੇ Egloff 2011). ਇਹ ਚਿੱਤਰ Pury (2011) ਵਿਚ ਅੰਜੀਰ 1B ਦੀ ਪ੍ਰਜਨਨ ਹੈ.

ਚਿੱਤਰ 2.2: 11 ਸਤੰਬਰ, 2001 ਦੇ ਕੋਰਸ 85,000 ਅਮਰੀਕੀ ਪੇਜ਼ਰ 'ਤੇ ਆਧਾਰਿਤ' ਤੇ ਗੁੱਸੇ ਵਿੱਚ ਅਨੁਮਾਨਿਤ ਰੁਝਾਨ (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . ਮੂਲ, Back, Küfner, and Egloff (2010) ਦਿਨ ਭਰ ਕ੍ਰੋਧ ਨੂੰ ਵਧਾਉਣ ਦਾ ਇੱਕ ਪੈਟਰਨ ਹੈ. "ਚਾਲੂ NT ਮਸ਼ੀਨ [name] ਵਿਚ ਕੈਬਨਿਟ [name] ਨੂੰ [ਸਥਿਤੀ ਦੇ] ਤੇ:: ਨਾਜ਼ੁਕ: [ਮਿਤੀ ਅਤੇ ਟਾਈਮ]" ਫਿਰ ਵੀ, ਇਹ ਜ਼ਾਹਰ ਗੁੱਸੇ ਸੁਨੇਹੇ ਦਾ ਸਭ ਨੂੰ ਇੱਕ ਸਿੰਗਲ ਪੇਜ਼ਰ ਹੈ, ਜੋ ਕਿ ਵਾਰ-ਵਾਰ ਦਿੱਤੇ ਸੁਨੇਹੇ ਨੂੰ ਬਾਹਰ ਭੇਜਿਆ ਦੁਆਰਾ ਬਣਾਈ ਗਏ ਸਨ. ਇਹ ਸੁਨੇਹਾ ਦੇ ਨਾਲ ਹਟਾਇਆ, ਗੁੱਸੇ ਵਿਚ ਜ਼ਾਹਰ ਵਾਧਾ ਗਾਇਬ (Pury 2011; Back, Küfner, and Egloff 2011) . ਇਹ ਚਿੱਤਰ ਵਿੱਚ ਅੰਜੀਰ 1B ਦੀ ਪ੍ਰਜਨਨ ਹੈ Pury (2011) .

ਨੂੰ ਇੱਕ ਮੁਨਾਸਬ ਧਿਆਨ ਖੋਜਕਾਰ ਕੇ ਗੰਦੇ ਡਾਟਾ ਹੈ, ਜੋ ਕਿ ਇੱਕ ਰੌਲੇ ਤੱਕ ਦੇ ਤੌਰ ਤੇ ਅਣਜਾਣੇ-ਅਜਿਹੇ ਬਣਾਇਆ ਗਿਆ ਹੈ, ਪੇਜ਼ਰ-ਕਰ ਸਕਦਾ ਹੈ ਖੋਜਿਆ ਜਾ ਰਿਹਾ ਹੈ, ਉਥੇ ਇਹ ਵੀ ਕੁਝ ਆਨਲਾਈਨ ਸਿਸਟਮ ਹੈ, ਜੋ ਕਿ ਬੁਝ spammers ਆਕਰਸ਼ਿਤ ਹੁੰਦੇ ਹਨ. ਇਹ spammers ਸਰਗਰਮੀ ਜਾਅਲੀ ਡਾਟਾ ਪੈਦਾ ਹੈ, ਅਤੇ-ਅਕਸਰ ਲਾਭ-ਕੰਮ ਦਾ ਬਹੁਤ ਹੀ ਸਖ਼ਤ ਕੇ ਆਪਣੇ ਕੂੜੇ ਨੂੰ ਗੁਪਤ ਰੱਖਣ ਲਈ. ਮਿਸਾਲ ਲਈ, ਟਵਿੱਟਰ 'ਤੇ ਸਿਆਸੀ ਸਰਗਰਮੀ ਨੂੰ ਘੱਟੋ-ਘੱਟ ਕੁਝ ਵਾਜਬ ਵਧੀਆ ਸਪੈਮ, ਜਿਸ ਨੂੰ ਕੁਝ ਸਿਆਸੀ ਕਾਰਨ ਬੁੱਝ ਹੋਰ ਪ੍ਰਸਿੱਧ ਵੱਧ ਉਹ ਅਸਲ ਹਨ ਵੇਖਣ ਲਈ ਕੀਤੇ ਗਏ ਹਨ, ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਲਈ ਲੱਗਦਾ ਹੈ (Ratkiewicz et al. 2011) . ਡਾਟਾ ਦੇ ਨਾਲ ਕੰਮ ਕਰ ਖੋਜਕਾਰ, ਜੋ ਕਿ ਬੁਝ ਸਪੈਮ ਸ਼ਾਮਿਲ ਹੋ ਸਕਦੇ ਹਨ ਨੂੰ ਆਪਣੇ ਹਾਜ਼ਰੀਨ ਨੂੰ ਹੈ, ਜੋ ਕਿ ਉਹ ਖੋਜਿਆ ਗਿਆ ਹੈ ਅਤੇ ਸੰਬੰਧਤ ਸਪੈਮ ਨੂੰ ਹਟਾ ਦਿੱਤਾ ਹੈ ਮਨਾਉਣ ਦੀ ਚੁਣੌਤੀ ਦਾ ਸਾਹਮਣਾ.

ਅੰਤ ਵਿੱਚ, ਕੀ ਮੰਨਿਆ ਗਿਆ ਹੈ ਗੰਦੇ ਡਾਟਾ ਆਪਣੇ ਖੋਜ ਸਵਾਲ 'ਤੇ ਸੂਖਮ ਢੰਗ ਨਿਰਭਰ ਕਰ ਸਕਦਾ ਹੈ. ਮਿਸਾਲ ਲਈ, ਇਕ ਅਜ਼ਾਦ ਕਰਨ ਲਈ ਬਹੁਤ ਸਾਰੇ ਸੰਪਾਦਨ ਆਟੋਮੈਟਿਕ ਬੋਟ ਦੁਆਰਾ ਬਣਾਏ ਗਏ ਹਨ (Geiger 2014) . ਤੁਹਾਨੂੰ ਵਿਕੀਪੀਡੀਆ ਦੀ ਵਾਤਾਵਰਣ ਵਿੱਚ ਦਿਲਚਸਪੀ ਰੱਖਦੇ ਹਨ, ਜੇ, ਫਿਰ ਇਹ ਬੋਟ ਮਹੱਤਵਪੂਰਨ ਹਨ. ਪਰ, ਜੇ ਤੁਹਾਡੇ ਵਿੱਚ ਹੈ ਇਨਸਾਨ ਵਿਕੀਪੀਡੀਆ ਲਈ ਯੋਗਦਾਨ ਦਿਲਚਸਪੀ ਰੱਖਦੇ ਹਨ, ਇਹ ਇਹ ਬੋਟ ਦੁਆਰਾ ਕੀਤੀ ਵਖਾਓ ਬਾਹਰ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ.

ਧੋਖਾ ਕੀਤਾ ਜਾ ਰਿਹਾ ਬਚਣ ਲਈ ਵਧੀਆ ਤਰੀਕੇ ਨਾਲ ਗੰਦੇ ਡਾਟਾ ਨੂੰ ਸਮਝਣ ਲਈ ਆਪਣੇ ਡਾਟੇ ਨੂੰ ਅਜਿਹੇ ਹੀ ਸਧਾਰਨ ਸਕੈਟਰ ਪਲੌਟ ਬਣਾਉਣ ਦੇ ਤੌਰ ਤੇ, ਸਧਾਰਨ ਇਹੋਕਾਰਨ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਲਈ ਬਣਾਇਆ ਗਿਆ ਸੀ ਹਨ.