2.2 ಬಿಗ್ ಡೇಟಾ

ಸಂಶೋಧನೆ ಹೊರತುಪಡಿಸಿ ಉದ್ದೇಶಗಳಿಗಾಗಿ ಕಂಪೆನಿಗಳು ಮತ್ತು ಸರ್ಕಾರಗಳು ಬಿಗ್ ಡೇಟಾಗಳನ್ನು ರಚಿಸುತ್ತವೆ ಮತ್ತು ಸಂಗ್ರಹಿಸುತ್ತವೆ. ಸಂಶೋಧನೆಗೆ ಈ ಡೇಟಾವನ್ನು ಬಳಸುವುದರಿಂದ, ಪುನರಾವರ್ತನೆಯ ಅಗತ್ಯವಿದೆ.

ಡಿಜಿಟಲ್ ಯುಗದಲ್ಲಿ ಅನೇಕ ಜನರು ಸಾಮಾಜಿಕ ಸಂಶೋಧನೆ ಎದುರಿಸುತ್ತಿರುವ ಮೊದಲ ಮಾರ್ಗವೆಂದರೆ ದೊಡ್ಡ ಡೇಟಾ ಎಂದು ಕರೆಯಲ್ಪಡುವ ಮೂಲಕ. ಈ ಪದದ ವ್ಯಾಪಕವಾದ ಬಳಕೆಯ ಹೊರತಾಗಿಯೂ, ದೊಡ್ಡ ದತ್ತಾಂಶಗಳ ಬಗ್ಗೆ ಯಾವುದೇ ಒಮ್ಮತವಿಲ್ಲ. ಹೇಗಾದರೂ, ದೊಡ್ಡ ಡೇಟಾವನ್ನು ಅತ್ಯಂತ ಸಾಮಾನ್ಯ ವ್ಯಾಖ್ಯಾನಗಳು ಒಂದು "3 Vs" ಕೇಂದ್ರೀಕರಿಸುತ್ತದೆ: ಸಂಪುಟ, ವೆರೈಟಿ, ಮತ್ತು ವೇಗ. ಸ್ಥೂಲವಾಗಿ, ವಿವಿಧ ಸ್ವರೂಪಗಳಲ್ಲಿ ಹಲವಾರು ಡೇಟಾಗಳಿವೆ ಮತ್ತು ಅದನ್ನು ನಿರಂತರವಾಗಿ ರಚಿಸಲಾಗುತ್ತಿದೆ. ದೊಡ್ಡ ಡೇಟಾದ ಕೆಲವು ಅಭಿಮಾನಿಗಳು ವೆರಾಸಿಟಿ ಮತ್ತು ವ್ಯಾಲ್ಯೂನಂತಹ ಇತರ "Vs" ಗಳನ್ನು ಕೂಡಾ ಸೇರಿಸುತ್ತಾರೆ, ಆದರೆ ಕೆಲವು ವಿಮರ್ಶಕರು ಅಸ್ಪಷ್ಟ ಮತ್ತು ವಿಚಾರಣೆಗಳಂತಹ ವರ್ತನೆಯನ್ನು ಸೇರಿಸುತ್ತಾರೆ. ಸಾಮಾಜಿಕ ಸಂಶೋಧನೆಯ ಉದ್ದೇಶಕ್ಕಾಗಿ 3 "Vs" (ಅಥವಾ 5 "Vs" ಅಥವಾ 7 "Vs") ಬದಲಾಗಿ, 5 "Ws" ಅನ್ನು ಪ್ರಾರಂಭಿಸಲು ಉತ್ತಮ ಸ್ಥಳವೆಂದರೆ: ಹೂ, ವಾಟ್, ವೇರ್, ವೆನ್ , ಮತ್ತು ಏಕೆ. ವಾಸ್ತವವಾಗಿ, ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳಿಂದ ರಚಿಸಲಾದ ಅನೇಕ ಸವಾಲುಗಳು ಮತ್ತು ಅವಕಾಶಗಳು ಕೇವಲ ಒಂದು "W" ನಿಂದ ಅನುಸರಿಸುತ್ತವೆ ಎಂದು ನಾನು ಭಾವಿಸುತ್ತೇನೆ: ಏಕೆ.

ಅನಲಾಗ್ ಯುಗದಲ್ಲಿ, ಸಂಶೋಧನೆ ಮಾಡುವ ಉದ್ದೇಶಕ್ಕಾಗಿ ಸಾಮಾಜಿಕ ಸಂಶೋಧನೆಗಾಗಿ ಬಳಸಲಾದ ಬಹುತೇಕ ಡೇಟಾವನ್ನು ರಚಿಸಲಾಗಿದೆ. ಡಿಜಿಟಲ್ ಯುಗದಲ್ಲಿ, ಸೇವೆಗಳನ್ನು ಒದಗಿಸುವುದು, ಲಾಭವನ್ನು ಉತ್ಪಾದಿಸುವುದು ಮತ್ತು ಕಾನೂನುಗಳನ್ನು ನಿರ್ವಹಿಸುವುದು ಮುಂತಾದ ಸಂಶೋಧನೆ ಹೊರತುಪಡಿಸಿ ಉದ್ದೇಶಗಳಿಗಾಗಿ ಕಂಪೆನಿಗಳು ಮತ್ತು ಸರ್ಕಾರಗಳು ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾವನ್ನು ರಚಿಸುತ್ತಿವೆ. ಆದಾಗ್ಯೂ, ಈ ಸಾಂಸ್ಥಿಕ ಮತ್ತು ಸರ್ಕಾರದ ದತ್ತಾಂಶವನ್ನು ಸಂಶೋಧನೆಗೆ ನೀವು ಪುನರಾವರ್ತಿಸಬಹುದು ಎಂದು ಕ್ರಿಯೇಟಿವ್ ಜನರು ಅರಿತುಕೊಂಡಿದ್ದಾರೆ. ಅಧ್ಯಾಯ 1 ರಲ್ಲಿ ಕಲಾ ಸಾದೃಶ್ಯದ ಬಗ್ಗೆ ಯೋಚಿಸಿ, ಕಲಾವನ್ನು ಸೃಷ್ಟಿಸಲು ಕಂಡುಬರುವ ವಸ್ತುವನ್ನು ಡಚಾಂಪ್ ಪುನರಾವರ್ತಿಸಿದಂತೆಯೇ, ವಿಜ್ಞಾನಿಗಳು ಈಗ ಸಂಶೋಧನೆಗಳನ್ನು ರಚಿಸಲು ದತ್ತಾಂಶವನ್ನು ಪತ್ತೆಹಚ್ಚಬಹುದು.

ಮರುಕಳಿಸುವ ನಿಸ್ಸಂದೇಹವಾಗಿ ದೊಡ್ಡ ಅವಕಾಶಗಳು ಇವೆ, ಸಂಶೋಧನೆಯ ಉದ್ದೇಶಗಳಿಗಾಗಿ ರಚಿಸಲಾಗಿಲ್ಲ ಡೇಟಾವನ್ನು ಬಳಸಿ ಹೊಸ ಸವಾಲುಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಜನರಲ್ ಸೋಶಿಯಲ್ ಸರ್ವೆ ಮುಂತಾದ ಸಾಂಪ್ರದಾಯಿಕ ಸಾರ್ವಜನಿಕ ಅಭಿಪ್ರಾಯ ಸಮೀಕ್ಷೆಯೊಂದಿಗೆ ಟ್ವಿಟರ್ನಂತಹ ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮ ಸೇವೆಯನ್ನು ಹೋಲಿಕೆ ಮಾಡಿ. ಟ್ವಿಟ್ಟರ್ನ ಪ್ರಮುಖ ಗುರಿಗಳು ಅದರ ಬಳಕೆದಾರರಿಗೆ ಸೇವೆ ಒದಗಿಸುವುದು ಮತ್ತು ಲಾಭವನ್ನು ಗಳಿಸುವುದು. ಮತ್ತೊಂದೆಡೆ ಜನರಲ್ ಸೋಷಿಯಲ್ ಸರ್ವೇ ಸಾಮಾಜಿಕ ಸಂಶೋಧನೆಗಾಗಿ, ವಿಶೇಷವಾಗಿ ಸಾರ್ವಜನಿಕ ಅಭಿಪ್ರಾಯ ಸಂಶೋಧನೆಗಾಗಿ ಸಾಮಾನ್ಯ-ಉದ್ದೇಶಿತ ಡೇಟಾವನ್ನು ರಚಿಸುವುದರ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಿದೆ. ಈ ವ್ಯತ್ಯಾಸಗಳು ಅರ್ಥವೇನೆಂದರೆ, ಟ್ವಿಟ್ಟರ್ನಿಂದ ರಚಿಸಲ್ಪಟ್ಟ ಡೇಟಾ ಮತ್ತು ಜನರಲ್ ಸೋಶಿಯಲ್ ಸರ್ವೆ ರಚಿಸಿದ ದತ್ತಾಂಶವು ವಿಭಿನ್ನ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಹೊಂದಿದ್ದು, ಸಾರ್ವಜನಿಕ ಅಭಿಪ್ರಾಯವನ್ನು ಅಧ್ಯಯನ ಮಾಡಲು ಎರಡೂ ಬಳಸಬಹುದು. ಜನರಲ್ ಸೋಶಿಯಲ್ ಸರ್ವೆ ಹೊಂದಾಣಿಕೆಯಾಗುವುದಿಲ್ಲ ಎಂದು ಟ್ವಿಟರ್ ಒಂದು ಪ್ರಮಾಣದಲ್ಲಿ ನಿರ್ವಹಿಸುತ್ತದೆ ಮತ್ತು ಸಾಮಾನ್ಯ ಜನರಲ್ ಸರ್ವೆಗಿಂತ ಭಿನ್ನವಾಗಿ, ಟ್ವಿಟರ್ ಎಚ್ಚರಿಕೆಯಿಂದ ಬಳಕೆದಾರರನ್ನು ಮಾದರಿಯಲ್ಲ ಮತ್ತು ಕಾಲಾನಂತರದಲ್ಲಿ ಹೋಲಿಸುವಿಕೆಯನ್ನು ಕಾಪಾಡಿಕೊಳ್ಳಲು ಕಷ್ಟಪಡುವುದಿಲ್ಲ. ಈ ಎರಡು ಡೇಟಾ ಮೂಲಗಳು ತುಂಬಾ ಭಿನ್ನವಾಗಿರುವುದರಿಂದ, ಜನರಲ್ ಸೋಷಿಯಲ್ ಸರ್ವೆ ಟ್ವಿಟ್ಟರ್ಗಿಂತಲೂ ಉತ್ತಮವಾಗಿದೆ ಎಂದು ಹೇಳಲು ಅರ್ಥವಿಲ್ಲ. ಜಾಗತಿಕ Golder and Macy (2011) ಗಂಟೆಗಳ ಕ್ರಮಗಳನ್ನು ನೀವು ಬಯಸಿದರೆ (ಉದಾಹರಣೆಗೆ, Golder and Macy (2011) ), ಟ್ವಿಟರ್ ಅತ್ಯುತ್ತಮವಾಗಿದೆ. ಮತ್ತೊಂದೆಡೆ, ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್ (ಉದಾ, DiMaggio, Evans, and Bryson (1996) ) ನ ಧೋರಣೆಗಳ ದೀರ್ಘಕಾಲೀನ ಬದಲಾವಣೆಗಳನ್ನು ನೀವು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಬಯಸಿದರೆ, ನಂತರ ಸಾಮಾನ್ಯ ಸಾಮಾಜಿಕ ಸಮೀಕ್ಷೆ ಅತ್ಯುತ್ತಮ ಆಯ್ಕೆಯಾಗಿದೆ. ಹೆಚ್ಚು ಸಾಮಾನ್ಯವಾಗಿ, ಆ ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳು ಇತರ ರೀತಿಯ ಡೇಟಾಗಳಿಗಿಂತ ಉತ್ತಮ ಅಥವಾ ಕೆಟ್ಟದಾಗಿವೆ ಎಂದು ವಾದಿಸಲು ಪ್ರಯತ್ನಿಸುವುದಕ್ಕಿಂತ ಹೆಚ್ಚಾಗಿ, ಈ ಅಧ್ಯಾಯವು ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳಿಗೆ ಯಾವ ರೀತಿಯ ಸಂಶೋಧನಾ ಪ್ರಶ್ನೆಗಳಿಗೆ ಆಕರ್ಷಕವಾದ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಹೊಂದಿದೆ ಮತ್ತು ಅವು ಯಾವ ರೀತಿಯ ಪ್ರಶ್ನೆಗಳನ್ನು ಹೊಂದಿರಬಾರದು ಎಂಬ ಬಗ್ಗೆ ಸ್ಪಷ್ಟೀಕರಿಸಲು ಪ್ರಯತ್ನಿಸುತ್ತದೆ. ಆದರ್ಶ.

ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳ ಕುರಿತು ಯೋಚಿಸುವಾಗ, ಅನೇಕ ಸಂಶೋಧಕರು ತಕ್ಷಣ ಹುಡುಕಾಟ ಎಂಜಿನ್ ದಾಖಲೆಗಳು ಮತ್ತು ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮದ ಪೋಸ್ಟ್ಗಳಂತಹ ಕಂಪನಿಗಳು ರಚಿಸಿ ಮತ್ತು ಸಂಗ್ರಹಿಸಿದ ಆನ್ಲೈನ್ ​​ಡೇಟಾವನ್ನು ಗಮನಹರಿಸುತ್ತಾರೆ. ಆದಾಗ್ಯೂ, ಈ ಕಿರಿದಾದ ಗಮನವು ಎರಡು ದೊಡ್ಡ ಪ್ರಮುಖ ಮಾಹಿತಿಯ ಮೂಲಗಳನ್ನು ಹೊರಹಾಕುತ್ತದೆ. ಮೊದಲನೆಯದಾಗಿ, ಸಾಂಸ್ಥಿಕ ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳು ದೈಹಿಕ ಜಗತ್ತಿನಲ್ಲಿ ಡಿಜಿಟಲ್ ಸಾಧನಗಳಿಂದ ಬರುತ್ತವೆ. ಉದಾಹರಣೆಗೆ, ಈ ಅಧ್ಯಾಯದಲ್ಲಿ, ತನ್ನ ಸಹೋದ್ಯೋಗಿಗಳು (Mas and Moretti 2009) ಯ ಉತ್ಪಾದನೆಯಿಂದ ಕೆಲಸಗಾರರ ಉತ್ಪಾದಕತೆಯು ಹೇಗೆ ಪರಿಣಾಮ ಬೀರುತ್ತದೆ ಎಂಬುದನ್ನು ಅಧ್ಯಯನ ಮಾಡಲು ಸೂಪರ್ಮಾರ್ಕೆಟ್ ಚೆಕ್-ಔಟ್ ಡೇಟಾವನ್ನು ಪುನರಾವರ್ತಿಸಿದ ಅಧ್ಯಯನವನ್ನು ನಾನು ನಿಮಗೆ ಹೇಳುತ್ತೇನೆ. ನಂತರ, ಮುಂದಿನ ಅಧ್ಯಾಯಗಳಲ್ಲಿ, ಮೊಬೈಲ್ ಫೋನ್ಗಳಿಂದ (Blumenstock, Cadamuro, and On 2015) ಕರೆ ದಾಖಲೆಗಳನ್ನು ಬಳಸಿದ ಸಂಶೋಧಕರು ಮತ್ತು ವಿದ್ಯುತ್ ಉಪಯುಕ್ತತೆಗಳಿಂದ (Allcott 2015) ರಚಿಸಿದ ಬಿಲ್ಲಿಂಗ್ ಡೇಟಾವನ್ನು ನಾನು ನಿಮಗೆ ಹೇಳುತ್ತೇನೆ. ಈ ಉದಾಹರಣೆಗಳು ವಿವರಿಸಿದಂತೆ, ಸಾಂಸ್ಥಿಕ ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳು ಕೇವಲ ಆನ್ಲೈನ್ ​​ನಡವಳಿಕೆಗಿಂತ ಹೆಚ್ಚು.

ಆನ್ ಲೈನ್ ನಡವಳಿಕೆಯ ಮೇಲೆ ಕಿರಿದಾದ ಗಮನದಿಂದ ತಪ್ಪಿಸಿಕೊಂಡ ದೊಡ್ಡ ಡೇಟಾದ ಎರಡನೇ ಪ್ರಮುಖ ಮೂಲವೆಂದರೆ ಸರ್ಕಾರಗಳು ರಚಿಸಿದ ಡೇಟಾ. ಸರ್ಕಾರಿ ಆಡಳಿತ ದಾಖಲೆಗಳನ್ನು ಕರೆಯುವ ಈ ಸರ್ಕಾರಿ ಮಾಹಿತಿಯು ತೆರಿಗೆ ದಾಖಲೆಗಳು, ಶಾಲಾ ದಾಖಲೆಗಳು, ಮತ್ತು ಪ್ರಮುಖ ಅಂಕಿಅಂಶಗಳ ದಾಖಲೆಗಳು (ಉದಾಹರಣೆಗೆ, ಜನನ ಮತ್ತು ಸಾವುಗಳ ದಾಖಲಾತಿಗಳು) ಮುಂತಾದ ವಿಷಯಗಳನ್ನು ಒಳಗೊಂಡಿದೆ. ಸರ್ಕಾರಗಳು ಈ ರೀತಿಯ ಡೇಟಾವನ್ನು ರಚಿಸುತ್ತಿವೆ, ಕೆಲವು ಸಂದರ್ಭಗಳಲ್ಲಿ, ನೂರಾರು ವರ್ಷಗಳು, ಮತ್ತು ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನಿಗಳು ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನಿಗಳು ಇದ್ದಂತೆ ಸುಮಾರು ಅವುಗಳನ್ನು ಬಳಸಿಕೊಳ್ಳುತ್ತಿದ್ದಾರೆ. ಏನು ಬದಲಾಗಿದೆ, ಆದಾಗ್ಯೂ, ಡಿಜಿಟೈಸೇಷನ್ ಆಗಿದೆ, ಅದು ಸರ್ಕಾರಗಳು ಸಂಗ್ರಹಿಸಲು, ಪ್ರಸಾರ ಮಾಡಲು, ಸಂಗ್ರಹಿಸಲು ಮತ್ತು ವಿಶ್ಲೇಷಿಸಲು ಡೇಟಾವನ್ನು ಸುಲಭವಾಗಿ ಮಾಡಿತು. ಉದಾಹರಣೆಗೆ, ಈ ಅಧ್ಯಾಯದಲ್ಲಿ, ಕಾರ್ಮಿಕ ಅರ್ಥಶಾಸ್ತ್ರದಲ್ಲಿ (Farber 2015) ಒಂದು ಮೂಲಭೂತ ಚರ್ಚೆಯನ್ನು ಎದುರಿಸಲು ನ್ಯೂ ಯಾರ್ಕ್ ಸಿಟಿ ಸರ್ಕಾರದ ಡಿಜಿಟಲ್ ಟ್ಯಾಕ್ಸಿ ಮೀಟರ್ಗಳ ಡೇಟಾವನ್ನು ಮರುಪರಿಶೀಲಿಸಿದ ಅಧ್ಯಯನವನ್ನು ನಾನು ನಿಮಗೆ ಹೇಳುತ್ತೇನೆ. ನಂತರ, ನಂತರದ ಅಧ್ಯಾಯಗಳಲ್ಲಿ, ಸರ್ವೆ-ಸಂಗ್ರಹಿಸಿದ ಮತದಾನದ ದಾಖಲೆಗಳನ್ನು ಸಮೀಕ್ಷೆ (Ansolabehere and Hersh 2012) ಮತ್ತು ಪ್ರಯೋಗ (Bond et al. 2012) ಹೇಗೆ ಬಳಸಲಾಗಿದೆ ಎಂದು ನಾನು ನಿಮಗೆ ಹೇಳುತ್ತೇನೆ.

ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳಿಂದ ಕಲಿತುಕೊಳ್ಳುವುದಕ್ಕೆ ಮೂಲಭೂತವಾಗಿದೆ ಎಂದು ನಾನು ಭಾವಿಸುತ್ತೇನೆ ಮತ್ತು ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳ (ವಿಭಾಗ 2.3) ಗುಣಲಕ್ಷಣಗಳ ಬಗ್ಗೆ ಹೆಚ್ಚು ನಿರ್ದಿಷ್ಟವಾಗಿ ಮಾತನಾಡುವ ಮೊದಲು ಮತ್ತು ಸಂಶೋಧನೆ (ವಿಭಾಗ 2.4) ನಲ್ಲಿ ಇದನ್ನು ಹೇಗೆ ಬಳಸಬಹುದು ಎಂಬುದನ್ನು ನಾನು ಬಯಸುತ್ತೇನೆ, repurposing ಬಗ್ಗೆ ಸಾಮಾನ್ಯ ಸಲಹೆ ಎರಡು ತುಣುಕುಗಳನ್ನು ನೀಡಲು. ಮೊದಲಿಗೆ, "ಕಂಡು" ಡೇಟಾ ಮತ್ತು "ವಿನ್ಯಾಸಗೊಳಿಸಿದ" ಡೇಟಾಗಳ ನಡುವೆ ನಾನು ಹೊಂದಿಸಿದ ಕಾಂಟ್ರಾಸ್ಟ್ ಕುರಿತು ಯೋಚಿಸಲು ಇದು ಪ್ರಲೋಭನಗೊಳಿಸುತ್ತದೆ. ಅದು ಹತ್ತಿರದಲ್ಲಿದೆ, ಆದರೆ ಇದು ಸರಿಯಾಗಿಲ್ಲ. ಆದರೂ, ಸಂಶೋಧಕರ ದೃಷ್ಟಿಕೋನದಿಂದ, ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳು "ಕಂಡುಬಂದಿವೆ," ಅವರು ಆಕಾಶದಿಂದ ಬರುವುದಿಲ್ಲ. ಬದಲಿಗೆ, ಸಂಶೋಧಕರು "ಕಂಡುಬಂದಿಲ್ಲ" ಎಂದು ಡೇಟಾ ಮೂಲಗಳು ಕೆಲವು ಉದ್ದೇಶಕ್ಕಾಗಿ ಯಾರಾದರೂ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ. "ಕಂಡುಬಂದಿರುವ" ಡೇಟಾವನ್ನು ಯಾರೊಬ್ಬರು ವಿನ್ಯಾಸಗೊಳಿಸಿದ್ದುದರಿಂದ, ನಿಮ್ಮ ಡೇಟಾವನ್ನು ರಚಿಸಿದ ಜನರು ಮತ್ತು ಪ್ರಕ್ರಿಯೆಗಳ ಕುರಿತು ನೀವು ಎಷ್ಟು ಸಾಧ್ಯವೋ ಅಷ್ಟು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದೇವೆ ಎಂದು ನಾನು ಯಾವಾಗಲೂ ಶಿಫಾರಸು ಮಾಡುತ್ತೇವೆ. ಎರಡನೆಯದಾಗಿ, ನೀವು ಡೇಟಾವನ್ನು ಪುನರಾವರ್ತಿಸುತ್ತಿರುವಾಗ, ನಿಮ್ಮ ಸಮಸ್ಯೆಗೆ ಆದರ್ಶ ಡೇಟಾಸಮೂಹವನ್ನು ಊಹಿಸಲು ಅದು ತುಂಬಾ ಸಹಾಯಕವಾಗುತ್ತದೆ ಮತ್ತು ನಂತರ ನೀವು ಬಳಸುತ್ತಿರುವ ಆದರ್ಶ ಡೇಟಾಸಮೂಹವನ್ನು ಹೋಲಿಸಿ ನೋಡುತ್ತೀರಿ. ನಿಮ್ಮ ಡೇಟಾವನ್ನು ನೀವೇ ಸಂಗ್ರಹಿಸದಿದ್ದರೆ, ನಿಮಗೆ ಬೇಕಾದುದನ್ನು ಮತ್ತು ನೀವು ಹೊಂದಿರುವದರ ನಡುವಿನ ಪ್ರಮುಖ ವ್ಯತ್ಯಾಸಗಳಿವೆ. ಈ ಭಿನ್ನತೆಗಳನ್ನು ಗಮನಿಸಿದರೆ ನೀವು ಏನು ಮಾಡಬಹುದು ಎಂಬುದನ್ನು ಸ್ಪಷ್ಟಪಡಿಸಲು ಮತ್ತು ನೀವು ಹೊಂದಿರುವ ಡೇಟಾದಿಂದ ಕಲಿಯಲು ಸಾಧ್ಯವಿಲ್ಲ, ಮತ್ತು ನೀವು ಸಂಗ್ರಹಿಸಬೇಕಾದ ಹೊಸ ಡೇಟಾವನ್ನು ಇದು ಸೂಚಿಸುತ್ತದೆ.

ನನ್ನ ಅನುಭವದಲ್ಲಿ, ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನಿಗಳು ಮತ್ತು ಮಾಹಿತಿ ವಿಜ್ಞಾನಿಗಳು ವಿಭಿನ್ನವಾಗಿ ಪುನರಾವರ್ತನೆ ಮಾಡಲು ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದಾರೆ. ಸಂಶೋಧನೆಗೆ ವಿನ್ಯಾಸಗೊಳಿಸಿದ ದತ್ತಾಂಶದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಒಗ್ಗಿಕೊಂಡಿರುವ ಸಮಾಜ ವಿಜ್ಞಾನಿಗಳು, ಅದರ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಕಡೆಗಣಿಸುತ್ತಿರುವಾಗ ಪುನರಾವರ್ತಿತ ಮಾಹಿತಿಯೊಂದಿಗೆ ಸಮಸ್ಯೆಗಳನ್ನು ಎತ್ತಿ ತೋರಿಸುತ್ತಾರೆ. ಮತ್ತೊಂದೆಡೆ, ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಅದರ ದೌರ್ಬಲ್ಯಗಳನ್ನು ನಿರ್ಲಕ್ಷಿಸುವಾಗ ಪುನರಾವರ್ತಿತ ಮಾಹಿತಿಯ ಪ್ರಯೋಜನಗಳನ್ನು ಸೂಚಿಸಲು ವಿಶಿಷ್ಟವಾಗಿ ತ್ವರಿತವಾಗಿರುತ್ತಾರೆ. ನೈಸರ್ಗಿಕವಾಗಿ, ಉತ್ತಮ ವಿಧಾನವೆಂದರೆ ಹೈಬ್ರಿಡ್. ಅಂದರೆ, ಸಂಶೋಧಕರು ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬೇಕು-ಒಳ್ಳೆಯ ಮತ್ತು ಕೆಟ್ಟ ಎರಡೂ-ಮತ್ತು ನಂತರ ಅವರಿಂದ ಕಲಿಯುವುದು ಹೇಗೆ ಎಂದು ಲೆಕ್ಕಾಚಾರ ಮಾಡಿ. ಮತ್ತು, ಈ ಅಧ್ಯಾಯದ ಉಳಿದ ಭಾಗಕ್ಕೆ ಇದು ಯೋಜನೆ. ಮುಂದಿನ ವಿಭಾಗದಲ್ಲಿ, ನಾನು ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳ ಹತ್ತು ಸಾಮಾನ್ಯ ಗುಣಲಕ್ಷಣಗಳನ್ನು ವಿವರಿಸುತ್ತೇನೆ. ನಂತರ, ಕೆಳಗಿನ ವಿಭಾಗದಲ್ಲಿ, ಅಂತಹ ಡೇಟಾದೊಂದಿಗೆ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಮೂರು ಸಂಶೋಧನಾ ವಿಧಾನಗಳನ್ನು ನಾನು ವಿವರಿಸುತ್ತೇನೆ.