2.3.9 ಡರ್ಟಿ

ದೊಡ್ಡ ದಶಮಾಂಶ ಮೂಲಗಳು ಜಂಕ್ ಮತ್ತು ಸ್ಪ್ಯಾಮ್ ಲೋಡ್ ಮಾಡಬಹುದು.

ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳು, ವಿಶೇಷವಾಗಿ ಆನ್ಲೈನ್ ​​ಮೂಲಗಳು, ಮೂಲರೂಪವಾಗಿವೆ ಎಂದು ಕೆಲವು ಸಂಶೋಧಕರು ನಂಬುತ್ತಾರೆ ಏಕೆಂದರೆ ಅವುಗಳನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ. ವಾಸ್ತವವಾಗಿ, ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಿದ ಜನರಿಗೆ ಅವರು ಆಗಾಗ್ಗೆ ಕೊಳಕು ಎಂದು ತಿಳಿದಿದ್ದಾರೆ. ಅಂದರೆ, ಅವರು ಸಂಶೋಧಕರ ಆಸಕ್ತಿಗೆ ನಿಜವಾದ ಕ್ರಮಗಳನ್ನು ಪ್ರತಿಬಿಂಬಿಸದ ದತ್ತಾಂಶವನ್ನು ಆಗಾಗ್ಗೆ ಸೇರಿಸಿಕೊಳ್ಳುತ್ತಾರೆ. ಹೆಚ್ಚಿನ ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನಿಗಳು ಈಗಾಗಲೇ ದೊಡ್ಡ-ಪ್ರಮಾಣದ ಸಾಮಾಜಿಕ ಸಮೀಕ್ಷೆಯ ಡೇಟಾವನ್ನು ಶುಚಿಗೊಳಿಸುವ ಪ್ರಕ್ರಿಯೆಯನ್ನು ತಿಳಿದಿದ್ದಾರೆ, ಆದರೆ ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳನ್ನು ಶುಚಿಗೊಳಿಸುವಿಕೆ ಹೆಚ್ಚು ಕಷ್ಟಕರವಾಗಿದೆ. ಈ ಕಷ್ಟದ ಅಂತಿಮ ಮೂಲವೆಂದರೆ ಈ ದೊಡ್ಡ ದತ್ತಾಂಶ ಮೂಲಗಳ ಪೈಕಿ ಅನೇಕವು ಸಂಶೋಧನೆಗೆ ಬಳಸಬೇಕಾದ ಉದ್ದೇಶವನ್ನು ಹೊಂದಿಲ್ಲ, ಆದ್ದರಿಂದ ಅವುಗಳು ಡೇಟಾವನ್ನು ಶುಚಿಗೊಳಿಸುವ ಅನುಕೂಲವನ್ನು ಸಂಗ್ರಹಿಸಿ, ಸಂಗ್ರಹಿಸಲಾಗಿಲ್ಲ ಮತ್ತು ದಾಖಲಾಗಿಲ್ಲ.

ಬ್ಯಾಕ್ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು (2010) ಸೆಪ್ಟಂಬರ್ 11, 2001 ರ ದಾಳಿಗೆ ಭಾವಾತ್ಮಕ ಪ್ರತಿಕ್ರಿಯೆಯ ಅಧ್ಯಯನದಿಂದ ಕೊಳಕು ಡಿಜಿಟಲ್ ಜಾಡಿನ ಮಾಹಿತಿಯ ಅಪಾಯಗಳನ್ನು ವಿವರಿಸಲಾಗಿದೆ, ಇದು ನಾನು ಮೊದಲೇ ಅಧ್ಯಾಯದಲ್ಲಿ ಉಲ್ಲೇಖಿಸಿದೆ. ಸಂಶೋಧಕರು ಸಾಮಾನ್ಯವಾಗಿ ತಿಂಗಳುಗಳು ಅಥವಾ ವರ್ಷಗಳವರೆಗೆ ಸಂಗ್ರಹಿಸಿದ ಹಿಂದಿನ ಮಾಹಿತಿಯನ್ನು ಬಳಸಿಕೊಂಡು ದುರಂತ ಘಟನೆಗಳ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಅಧ್ಯಯನ ಮಾಡುತ್ತಾರೆ. ಆದರೆ, ಬ್ಯಾಕ್ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು ಯಾವಾಗಲೂ ಡಿಜಿಟಲ್ ಜಾಡುಗಳ ಮೂಲವನ್ನು ಕಂಡುಹಿಡಿದಿದ್ದಾರೆ-ಇದು 85,000 ಅಮೇರಿಕನ್ ಪೇಜರ್ಸ್ನಿಂದ ಸಮಯಮುದ್ರಿಸಲ್ಪಟ್ಟ, ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಧ್ವನಿಮುದ್ರಣಗೊಂಡ ಸಂದೇಶಗಳನ್ನು-ಮತ್ತು ಇದು ಹೆಚ್ಚು ಸರಳವಾದ ಸಮಯದ ಮೇಲೆ ಭಾವನಾತ್ಮಕ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಅಧ್ಯಯನ ಮಾಡಲು ನೆರವಾಯಿತು. (1) ದುಃಖ (ಉದಾ., "ಅಳುವುದು" ಮತ್ತು "ದುಃಖ"), (2) ಆತಂಕ (2) ಗೆ ಸಂಬಂಧಿಸಿದ ಪದಗಳ ಶೇಕಡಾವಾರು ಮೂಲಕ ಪೇಜರ್ ಸಂದೇಶಗಳ ಭಾವನಾತ್ಮಕ ವಿಷಯವನ್ನು ಕೋಡಿಂಗ್ ಮಾಡುವ ಮೂಲಕ ಅವರು ಸೆಪ್ಟೆಂಬರ್ 11 ರ ಒಂದು ನಿಮಿಷದ-ನಿಮಿಷದ ಭಾವನಾತ್ಮಕ ಟೈಮ್ಲೈನ್ ​​ಅನ್ನು ರಚಿಸಿದ್ದಾರೆ. ಉದಾ., "ಚಿಂತೆ" ಮತ್ತು "ಭಯ") ಮತ್ತು (3) ಕೋಪ (ಉದಾ, "ದ್ವೇಷ" ಮತ್ತು "ನಿರ್ಣಾಯಕ"). ದುಃಖ ಮತ್ತು ಆತಂಕವು ದಿನವಿಡೀ ಪ್ರಬಲ ಮಾದರಿಯಿಲ್ಲದೆ ಏರಿತು, ಆದರೆ ದಿನವಿಡೀ ಕೋಪದಲ್ಲಿ ಗಮನಾರ್ಹ ಏರಿಕೆ ಕಂಡುಬಂದಿದೆ ಎಂದು ಅವರು ಕಂಡುಕೊಂಡರು. ಈ ಸಂಶೋಧನೆಯು ಯಾವಾಗಲೂ ಡಾಟಾ ಮೂಲಗಳ ಶಕ್ತಿಯ ಅದ್ಭುತ ವಿವರಣೆಯಾಗಿದೆ: ಸಾಂಪ್ರದಾಯಿಕ ದತ್ತಾಂಶ ಮೂಲಗಳನ್ನು ಬಳಸಿದ್ದರೆ, ಅನಿರೀಕ್ಷಿತ ಘಟನೆಗೆ ತಕ್ಷಣದ ಪ್ರತಿಕ್ರಿಯೆಯ ಅಂತಹ ಹೆಚ್ಚಿನ-ರೆಸಲ್ಯೂಶನ್ ಟೈಮ್ಲೈನ್ ​​ಪಡೆಯಲು ಅಸಾಧ್ಯವಾಗಿತ್ತು.

ಕೇವಲ ಒಂದು ವರ್ಷದ ನಂತರ, ಸಿಂಥಿಯಾ ಪಾರಿ (2011) ಈ ಡೇಟಾವನ್ನು ಹೆಚ್ಚು ಎಚ್ಚರಿಕೆಯಿಂದ ನೋಡಿದ್ದಾರೆ. ಒಂದು ದೊಡ್ಡ ಸಂಖ್ಯೆಯ ಬಹುಶಃ ಕೋಪಗೊಂಡ ಸಂದೇಶಗಳು ಒಂದೇ ಪೇಜರ್ನಿಂದ ಉತ್ಪತ್ತಿಯಾಗುತ್ತವೆ ಮತ್ತು ಅವುಗಳು ಒಂದೇ ಆಗಿವೆ ಎಂದು ಅವರು ಕಂಡುಹಿಡಿದರು. ಆ ಬಹುಶಃ ಕೋಪಗೊಂಡ ಸಂದೇಶಗಳನ್ನು ಹೇಳಿದರು ಇಲ್ಲಿದೆ:

"ರೀಬೂಟ್ ಎನ್ಟಿ ಯಂತ್ರ [ಹೆಸರು] ಕ್ಯಾಬಿನೆಟ್ [ಹೆಸರು] [ಸ್ಥಳ] ನಲ್ಲಿ: ನಿರ್ಣಾಯಕ: [ದಿನಾಂಕ ಮತ್ತು ಸಮಯ]"

ಈ ಸಂದೇಶಗಳು ಕೋಪಗೊಂಡವು ಏಕೆಂದರೆ ಅವರು "ಕ್ರಿಟಿಕಲ್" ಪದವನ್ನು ಸೇರಿಸಿದ್ದಾರೆ, ಅದು ಸಾಮಾನ್ಯವಾಗಿ ಕೋಪವನ್ನು ಸೂಚಿಸುತ್ತದೆ ಆದರೆ ಈ ಸಂದರ್ಭದಲ್ಲಿ ಮಾಡುವುದಿಲ್ಲ. ಈ ಏಕೈಕ ಸ್ವಯಂಚಾಲಿತ ಪೇಜರ್ನಿಂದ ಉತ್ಪತ್ತಿಯಾದ ಸಂದೇಶಗಳನ್ನು ತೆಗೆದುಹಾಕುವುದರಿಂದ ದಿನದ ಸಮಯದಲ್ಲಿ ಕೋಪದಲ್ಲಿ ಸ್ಪಷ್ಟವಾಗಿ ಹೆಚ್ಚಾಗುತ್ತದೆ (ಚಿತ್ರ 2.4). ಬೇರೆ ರೀತಿಯಲ್ಲಿ ಹೇಳುವುದಾದರೆ, Back, Küfner, and Egloff (2010) ನಲ್ಲಿನ ಮುಖ್ಯ ಫಲಿತಾಂಶವೆಂದರೆ ಒಂದು Back, Küfner, and Egloff (2010) ಕಲಾಕೃತಿಯಾಗಿದೆ. ಈ ಉದಾಹರಣೆಯು ವಿವರಿಸಿದಂತೆ, ತುಲನಾತ್ಮಕವಾಗಿ ಸಂಕೀರ್ಣ ಮತ್ತು ಗೊಂದಲಮಯ ಮಾಹಿತಿಯ ಸರಳವಾದ ವಿಶ್ಲೇಷಣೆಯು ಗಂಭೀರವಾಗಿ ತಪ್ಪಾಗಿ ಹೋಗಲು ಸಾಧ್ಯವಿದೆ.

ಚಿತ್ರ 2.4: 85,000 ಅಮೆರಿಕನ್ ಪೇಜರ್ಸ್ (ಬ್ಯಾಕ್, ಕುಫ್ನರ್, ಮತ್ತು ಎಗ್ಲೋಫ್ 2010, 2011; 2011 ರ ಪಾರಿ 2011) ಆಧಾರದ ಮೇಲೆ ಸೆಪ್ಟೆಂಬರ್ 11, 2001 ರ ಅವಧಿಯಲ್ಲಿ ಕೋಪದಲ್ಲಿ ಅಂದಾಜು ಪ್ರವೃತ್ತಿಗಳು. ಮೂಲತಃ, ಬ್ಯಾಕ್, ಕುಫ್ನರ್ ಮತ್ತು ಎಗ್ಲೋಫ್ (2010) ದಿನವಿಡೀ ಹೆಚ್ಚುತ್ತಿರುವ ಕೋಪವನ್ನು ವರದಿ ಮಾಡಿದ್ದಾರೆ. ಆದಾಗ್ಯೂ, ಇವುಗಳಲ್ಲಿ ಹೆಚ್ಚಿನವುಗಳು ಸ್ಪಷ್ಟವಾಗಿ ಕೋಪಗೊಂಡ ಸಂದೇಶಗಳನ್ನು ಒಂದೇ ಪೇಜರ್ನಿಂದ ರಚಿಸಲಾಗಿದೆ: ಈ ಕೆಳಗಿನ ಸಂದೇಶವನ್ನು ಪುನರಾವರ್ತಿತವಾಗಿ ಕಳುಹಿಸಲಾಗಿದೆ: ರೀಬೂಟ್ NT ಯಂತ್ರ [ಹೆಸರು] ಕ್ಯಾಬಿನೆಟ್ [ಹೆಸರು] ನಲ್ಲಿ [ಸ್ಥಳ]: CRITICAL: [ದಿನಾಂಕ ಮತ್ತು ಸಮಯ]. ಈ ಸಂದೇಶವನ್ನು ತೆಗೆದುಹಾಕಿದ ನಂತರ, ಕೋಪದಲ್ಲಿನ ಸ್ಪಷ್ಟ ಹೆಚ್ಚಳವು ಕಣ್ಮರೆಯಾಗುತ್ತದೆ (ಪಾರಿ 2011; ಬ್ಯಾಕ್, ಕುಫ್ನರ್ ಮತ್ತು ಎಗ್ಲೋಫ್ 2011). ಪಾರಿ (2011), ಫಿಗರ್ 1b ನಿಂದ ಅಳವಡಿಸಲಾಗಿದೆ.

ಚಿತ್ರ 2.4: 85,000 ಅಮೆರಿಕನ್ ಪೇಜರ್ಸ್ (Back, Küfner, and Egloff 2010, 2011; Pury 2011) ಆಧಾರದ ಮೇಲೆ ಸೆಪ್ಟೆಂಬರ್ 11, 2001 ರ ಅವಧಿಯಲ್ಲಿ ಕೋಪದಲ್ಲಿ ಅಂದಾಜು ಪ್ರವೃತ್ತಿಗಳು. ಮೂಲತಃ, Back, Küfner, and Egloff (2010) ದಿನವಿಡೀ ಹೆಚ್ಚುತ್ತಿರುವ ಕೋಪವನ್ನು ವರದಿ ಮಾಡಿದ್ದಾರೆ. ಆದಾಗ್ಯೂ, ಈ ಪೈಕಿ ಬಹುತೇಕ ಪೇಜ್ ಸಂದೇಶಗಳು ಒಂದೇ ಪೇಜರ್ನಿಂದ ಪುನರಾವರ್ತಿತವಾಗಿ ಕೆಳಗಿನ ಸಂದೇಶವನ್ನು ಕಳುಹಿಸಿದವು: "ರೀಬೂಟ್ ಎನ್ಟಿ ಯಂತ್ರ [ಹೆಸರನ್ನು] ಕ್ಯಾಬಿನೆಟ್ [ಹೆಸರು] ನಲ್ಲಿ [ಸ್ಥಳ]: CRITICAL: [ದಿನಾಂಕ ಮತ್ತು ಸಮಯ]". ಈ ಸಂದೇಶವನ್ನು ತೆಗೆದುಹಾಕಿದ ನಂತರ, ಕೋಪದಲ್ಲಿನ ಸ್ಪಷ್ಟ ಹೆಚ್ಚಳವು ಕಣ್ಮರೆಯಾಗುತ್ತದೆ (Pury 2011; Back, Küfner, and Egloff 2011) . Pury (2011) , ಫಿಗರ್ 1b ನಿಂದ ಅಳವಡಿಸಲಾಗಿದೆ.

ಉದ್ದೇಶಪೂರ್ವಕವಾಗಿ ರಚಿಸಲ್ಪಟ್ಟಿರುವ ಕೊಳಕು ಡೇಟಾವು ಒಂದು ಶಬ್ಧದ ಪೇಜರ್ನಿಂದ ಸಮಂಜಸವಾಗಿ ಎಚ್ಚರಿಕೆಯ ಸಂಶೋಧಕರಿಂದ ಕಂಡುಹಿಡಿಯಲ್ಪಡಬಹುದು, ಕೆಲವು ಆನ್ಲೈನ್ ​​ವ್ಯವಸ್ಥೆಗಳು ಉದ್ದೇಶಪೂರ್ವಕ ಸ್ಪ್ಯಾಮರ್ಗಳನ್ನು ಆಕರ್ಷಿಸುತ್ತವೆ. ಈ ಸ್ಪ್ಯಾಮರ್ಗಳು ನಕಲಿ ಡೇಟಾವನ್ನು ಸಕ್ರಿಯವಾಗಿ ಸೃಷ್ಟಿಸುತ್ತಾರೆ ಮತ್ತು -ಸಾಮಾನ್ಯವಾಗಿ ಲಾಭ-ಕೆಲಸದಿಂದ ತಮ್ಮ ಸ್ಪ್ಯಾಮಿಂಗ್ ಅನ್ನು ಮರೆಮಾಡಲು ಬಹಳ ಕಷ್ಟದಿಂದ ಪ್ರೇರೇಪಿಸುತ್ತಾರೆ. ಉದಾಹರಣೆಗೆ, ಟ್ವಿಟ್ಟರ್ನಲ್ಲಿನ ರಾಜಕೀಯ ಚಟುವಟಿಕೆಯು ಕನಿಷ್ಠ ಕೆಲವು ಸಮಂಜಸವಾದ ಅತ್ಯಾಧುನಿಕ ಸ್ಪ್ಯಾಮ್ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ, ಅದರ ಮೂಲಕ ಕೆಲವು ರಾಜಕೀಯ ಕಾರಣಗಳು ಉದ್ದೇಶಪೂರ್ವಕವಾಗಿ ಅವುಗಳು ಹೆಚ್ಚು ಜನಪ್ರಿಯವಾಗುವುದಕ್ಕಾಗಿ ತಯಾರಿಸಲ್ಪಡುತ್ತವೆ (Ratkiewicz et al. 2011) . ದುರದೃಷ್ಟವಶಾತ್, ಈ ಉದ್ದೇಶಪೂರ್ವಕ ಸ್ಪ್ಯಾಮ್ ಅನ್ನು ತೆಗೆದುಹಾಕುವುದು ತುಂಬಾ ಕಷ್ಟ.

ಖಂಡಿತವಾಗಿಯೂ ಕೊಳಕು ಡೇಟಾ ಎಂದು ಪರಿಗಣಿಸಲ್ಪಡುವ ಅಂಶವು ಸಂಶೋಧನಾ ಪ್ರಶ್ನೆಯಲ್ಲಿ ಭಾಗಶಃ ಅವಲಂಬಿತವಾಗಿರುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ವಿಕಿಪೀಡಿಯಾಕ್ಕೆ ಅನೇಕ ಸಂಪಾದನೆಗಳನ್ನು ಸ್ವಯಂಚಾಲಿತ ಬಾಟ್ಗಳು (Geiger 2014) . ವಿಕಿಪೀಡಿಯ ಪರಿಸರ ವಿಜ್ಞಾನದಲ್ಲಿ ನೀವು ಆಸಕ್ತಿ ಹೊಂದಿದ್ದರೆ, ನಂತರ ಈ ಬೋಟ್ ರಚಿಸಿದ ಸಂಪಾದನೆಗಳು ಬಹಳ ಮುಖ್ಯ. ಆದರೆ ವಿಕಿಪೀಡಿಯಕ್ಕೆ ಮಾನವರು ಹೇಗೆ ಕೊಡುಗೆ ನೀಡುತ್ತಾರೆ ಎಂಬ ಬಗ್ಗೆ ಆಸಕ್ತಿ ಇದ್ದರೆ, ನಂತರ ಬೋಟ್ ರಚಿಸಿದ ಸಂಪಾದನೆಗಳನ್ನು ಹೊರಗಿಡಬೇಕು.

ನಿಮ್ಮ ಡರ್ಟಿ ಡೇಟಾವನ್ನು ನೀವು ಸಾಕಷ್ಟು ಸ್ವಚ್ಛಗೊಳಿಸಬಹುದೆಂದು ಖಾತ್ರಿಪಡಿಸಿಕೊಳ್ಳುವ ಏಕೈಕ ಸಾಂಖ್ಯಿಕ ತಂತ್ರ ಅಥವಾ ವಿಧಾನವಿಲ್ಲ. ಕೊನೆಯಲ್ಲಿ, ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಹೇಗೆ ರಚಿಸಲಾಗಿದೆ ಎಂಬುದರ ಬಗ್ಗೆ ಎಷ್ಟು ಸಾಧ್ಯವೋ ಅಷ್ಟು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು ಕೊಳಕು ಡೇಟಾದಿಂದ ಮೂರ್ಖರಾಗುವುದನ್ನು ತಡೆಗಟ್ಟಲು ಉತ್ತಮ ಮಾರ್ಗವಾಗಿದೆ ಎಂದು ನಾನು ಭಾವಿಸುತ್ತೇನೆ.