2.2 ಬಿಗ್ ಡೇಟಾ

ದೊಡ್ಡ ದಶಮಾಂಶ ದಾಖಲಿಸಿದವರು ಮತ್ತು ಸಂಶೋಧನಾ ಬದಲಿಗೆ ಬೇರೆ ಉದ್ದೇಶಗಳಿಗೆ ಸರ್ಕಾರಗಳು ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ. ಸಂಶೋಧನೆಗಾಗಿ ಈ ಮಾಹಿತಿಯ ಆದ್ದರಿಂದ Repurposing ಅಗತ್ಯವಿದೆ.

ಸಾಮಾಜಿಕ ಸಂಶೋಧನೆ ಒಂದು ಆದರ್ಶೀಕರಿಸಿದ ನೋಟ ಕಲ್ಪನೆಯನ್ನು ಹೊಂದಿರುವ ಮತ್ತು ನಂತರ ಕಲ್ಪನೆಯನ್ನು ಪರೀಕ್ಷಿಸಲು ಮಾಹಿತಿಯನ್ನು ಸಂಗ್ರಹಿಸುವುದು ವಿಜ್ಞಾನಿ ಬಿಂಬಿಸುತ್ತದೆ. ಸಂಶೋಧನೆಯ ಈ ಶೈಲಿಯ ಸಂಶೋಧನಾ ಪ್ರಶ್ನೆ ಮತ್ತು ಡೇಟಾವನ್ನು ನಡುವೆ ಒಂದು ಬಿಗಿಯಾದ ಫಿಟ್ ಕಾರಣವಾಗುತ್ತದೆ, ಆದರೆ ವ್ಯಕ್ತಿಯ ಸಂಶೋಧಕ ಸಾಮಾನ್ಯವಾಗಿ ಇಂತಹ ದೊಡ್ಡ ಶ್ರೀಮಂತ, ಮತ್ತು ರಾಷ್ಟ್ರಮಟ್ಟದಲ್ಲಿ ಪ್ರತಿನಿಧಿಸುವ ದತ್ತಾಂಶಗಳನ್ನು ಅವರು ದಶಮಾಂಶ ಸಂಗ್ರಹಿಸಲು ಅಗತ್ಯವಿರುವ ಸಂಪನ್ಮೂಲಗಳನ್ನು ಹೊಂದಿಲ್ಲ ಇದು ಸೀಮಿತವಾಗಿದೆ. ಇಂತಹ ಜನರಲ್ ಸೋಷಿಯಲ್ ಸರ್ವೇಕ್ಷಣೆಯಲ್ಲಿ (GSS), ಅಮೆರಿಕನ್ ನ್ಯಾಷನಲ್ ಎಲೆಕ್ಷನ್ ಸ್ಟಡಿ (ಅನೆಸ್), ಮತ್ತು ಸಮಿತಿಯ ಅಧ್ಯಯನ ಆದಾಯ ಡೈನಾಮಿಕ್ಸ್ (PSID) ಆದ್ದರಿಂದ, ಹಿಂದೆ ಸಾಮಾಜಿಕ ಸಂಶೋಧನೆಯ ಬಹಳಷ್ಟು ಬಳಸಿದೆ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಸಾಮಾಜಿಕ ಸಮೀಕ್ಷೆಗಳು. ಈ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಸಮೀಕ್ಷೆ ಸಾಮಾನ್ಯವಾಗಿ ಸಂಶೋಧಕರ ತಂಡದ ರನ್ ಮತ್ತು ಅವರು ಮಾಡಬಹುದಾದ ಅನೇಕ ಸಂಶೋಧಕರು ಬಳಸುವ ಡಾಟಾ ರಚಿಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ. ಈ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಸಮೀಕ್ಷೆಗಳು ಗುರಿಗಳ ಏಕೆಂದರೆ, ಎಚ್ಚರಿಕೆಯಿಂದ ಮಾಹಿತಿ ಸಂಗ್ರಹ ವಿನ್ಯಾಸ ಮತ್ತು ಸಂಶೋಧಕರು ಬಳಕೆಗೆ ಫಲಿತಾಂಶದ ಮಾಹಿತಿ ತಯಾರಿ ಜಾರಿಗೊಳಿಸಲಾಗುವುದು. ಈ ಡೇಟಾವನ್ನು ಸಂಶೋಧಕರು ಮತ್ತು ಸಂಶೋಧಕರು ಹೊಂದಿದೆ.

ಡಿಜಿಟಲ್ ವಯಸ್ಸು ಬಳಸಿಕೊಂಡು ಹೆಚ್ಚಿನ ಸಾಮಾಜಿಕ ಸಂಶೋಧನೆಯು, ಮೂಲಭೂತವಾಗಿ ವಿಭಿನ್ನವಾಗಿರುತ್ತದೆ. ಬದಲಿಗೆ ಸಂಶೋಧಕರು ಮತ್ತು ಸಂಶೋಧಕರಿಗೆ ಸಂಗ್ರಹಿಸಿದ ಡೇಟಾವನ್ನು ಬಳಸುವ, ಇದು ದಾಖಲಿಸಿದವರು ಮತ್ತು, ಒಂದು ಲಾಭ ಒಂದು ಸೇವೆ ಒದಗಿಸುತ್ತದೆ ಅಥವಾ ಕಾನೂನು ನೀಡುವ ತಮ್ಮ ಸ್ವಂತ ಉದ್ದೇಶಗಳಿಗಾಗಿ ವ್ಯವಹಾರಗಳು ಮತ್ತು ಸರ್ಕಾರಗಳು ಸಂಗ್ರಹಿಸಲಾಗಿತ್ತು ಡೇಟಾವನ್ನು ಬಳಸುತ್ತದೆ. ಈ ವ್ಯಾಪಾರ ಮತ್ತು ಸರ್ಕಾರದ ದಶಮಾಂಶ ಮೂಲಗಳು ದೊಡ್ಡ ದಶಮಾಂಶ ಎಂದು ಬಂದಿದ್ದೇನೆ. ದೊಡ್ಡ ದಶಮಾಂಶ ಸಂಶೋಧನೆಯನ್ನು ಮಾಡುವ ಮೂಲತಃ ಸಂಶೋಧನೆಗೆ ನಿರ್ಮಿತವಾದ ಡೇಟಾ ಸಂಶೋಧನೆಯನ್ನು ಮಾಡುವ ಭಿನ್ನವಾದುದಾಗಿದೆ. ಉದಾಹರಣೆಗೆ, ಹೋಲಿಸಿ ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮ ವೆಬ್ಸೈಟ್ನಲ್ಲಿ, ಟ್ವಿಟರ್ ಮುಂತಾದ ಜನರಲ್ ಸೋಷಿಯಲ್ ಸರ್ವೇಕ್ಷಣೆಯಲ್ಲಿ (GSS) ಸಾಂಪ್ರದಾಯಿಕ ಸಾರ್ವಜನಿಕ ಅಭಿಪ್ರಾಯ ಸಮೀಕ್ಷೆ. ಟ್ವಿಟರ್ ಮುಖ್ಯ ಗೋಲುಗಳನ್ನು ತನ್ನ ಬಳಕೆದಾರರಿಗೆ ಸೇವೆ ಮತ್ತು ಲಾಭ ಮಾಡಲು ಇವೆ. ಈ ಗುರಿಗಳನ್ನು ಸಾಧಿಸುವ ಪ್ರಕ್ರಿಯೆ, ಟ್ವಿಟರ್ ಸಾರ್ವಜನಿಕ ಅಭಿಪ್ರಾಯ ಕೆಲವು ಅಂಶಗಳನ್ನು ಅಧ್ಯಯನ ಬಯಸಿದಾಗ ಇದು ಸಹಕಾರಿಯಾಗುತ್ತದೆ ಡೇಟಾವನ್ನು ಸೃಷ್ಟಿಸುತ್ತದೆ. ಆದರೆ, ಜನರಲ್ ಸೋಷಿಯಲ್ ಸರ್ವೇಕ್ಷಣೆಯಲ್ಲಿ (GSS) ಭಿನ್ನವಾಗಿ, ಟ್ವಿಟರ್ ಸಾಮಾಜಿಕ ಸಂಶೋಧನೆ ಮುಖ್ಯವಾಗಿ ಕೇಂದ್ರೀಕೃತವಾಗಿದೆ.

ಪದವನ್ನು ದೊಡ್ಡ ದಶಮಾಂಶ frustratingly ಅಸ್ಪಷ್ಟ, ಮತ್ತು ಒಟ್ಟಿಗೆ ಗುಂಪುಗಳು ವಿವಿಧ ವಿಷಯಗಳನ್ನು. ಸಾಮಾಜಿಕ ಸಂಶೋಧನೆ ಉದ್ದೇಶಗಳಿಗಾಗಿ, ನಾನು ದೊಡ್ಡ ದಶಮಾಂಶ ಮೂಲಗಳ ಎರಡು ರೀತಿಯ ನಡುವೆ ವ್ಯತ್ಯಾಸ ಉಪಯುಕ್ತ ಭಾವಿಸುತ್ತೇನೆ. ಸರ್ಕಾರ ಆಡಳಿತಾತ್ಮಕ ದಾಖಲೆಗಳು ಮತ್ತು ವ್ಯಾಪಾರ ಆಡಳಿತ ದಾಖಲೆಗಳನ್ನು ಸರ್ಕಾರ ಆಡಳಿತಾತ್ಮಕ ದಾಖಲೆಗಳನ್ನು ತಮ್ಮ ದಿನನಿತ್ಯದ ಚಟುವಟಿಕೆಗಳನ್ನು ನಡೆಸುವಾಗ ಸರ್ಕಾರಗಳು ದಾಖಲಿಸಿದವರು ದತ್ತಾಂಶ ಇವೆ. ದಾಖಲೆಗಳ ಈ ರೀತಿಯ-ಕಳೆದ ಅಧ್ಯಯನ ಜನನ, ವಿವಾಹ, ಮತ್ತು ಮರಣದ ದಾಖಲೆ ಆದರೆ ಸರ್ಕಾರಗಳು ಹೆಚ್ಚು ಸಂಗ್ರಹಿಸುವ ಮತ್ತು ವಿಶ್ಲೇಷಿಸಲಾಗುವುದಿಲ್ಲ ರೂಪಗಳಲ್ಲಿ ವಿವರವಾದ ದಾಖಲೆಗಳನ್ನು ಬಿಡುಗಡೆ ಜನಸಂಖ್ಯಾಶಾಸ್ತ್ರಜ್ಞರು ಎಂದು ಸಂಶೋಧಕರು ಬಳಸಲಾಗುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ನ್ಯೂಯಾರ್ಕ್ ನಗರ ಆಡಳಿತವು ನಗರದಲ್ಲಿ ಪ್ರತಿ ಟ್ಯಾಕ್ಸಿ ಒಳಗೆ ಡಿಜಿಟಲ್ ಮೀಟರ್ ಸ್ಥಾಪಿಸಿದ. ಈ ಮೀಟರ್ ಚಾಲಕ, ಆರಂಭದ ಸಮಯ ಮತ್ತು ಸ್ಥಳ, ಸ್ಟಾಪ್ ಸಮಯ ಮತ್ತು ಸ್ಥಳ, ಮತ್ತು ಶುಲ್ಕ ಸೇರಿದಂತೆ ಪ್ರತಿ ಟ್ಯಾಕ್ಸಿ ಸವಾರಿಯ ಬಗ್ಗೆ ಮಾಹಿತಿ ಎಲ್ಲಾ ರೀತಿಯ ರೆಕಾರ್ಡ್. ನಾನು ಈ ಅಧ್ಯಾಯದಲ್ಲಿ ನಂತರ ಹೇಳುತ್ತೇನೆ ಒಂದು ಅಧ್ಯಯನದಲ್ಲಿ, ಹೆನ್ರಿ ಫಾರ್ಬರ್ (2015) ಗಂಟೆಯ ಸಂಬಳ ಮತ್ತು ಎಷ್ಟು ಗಂಟೆಗಳ ಕೆಲಸ ನಡುವಿನ ಸಂಬಂಧದ ಬಗ್ಗೆ ಕಾರ್ಮಿಕ ಅರ್ಥವ್ಯವಸ್ಥೆಯಲ್ಲಿ ಮೂಲಭೂತ ಚರ್ಚೆ ಪರಿಹರಿಸಲು ಈ ಡೇಟಾವನ್ನು repurposed.

ಸಾಮಾಜಿಕ ಸಂಶೋಧನೆಗೆ ದೊಡ್ಡ ದಶಮಾಂಶ ಎರಡನೇ ಮುಖ್ಯ ರೀತಿಯ ವ್ಯಾಪಾರ ಆಡಳಿತಾತ್ಮಕ ದಾಖಲೆಗಳನ್ನು ಹೊಂದಿದೆ. ಈ ವ್ಯಾಪಾರ ರಚಿಸಲು ಮತ್ತು ಅವರ ದೈನಂದಿನ ಚಟುವಟಿಕೆಗಳನ್ನು ನಡೆಸುವಾಗ ಸಂಗ್ರಹಿಸುವ ದತ್ತಾಂಶ. ಈ ವ್ಯಾಪಾರ ಆಡಳಿತ ದಾಖಲೆಗಳು ಹೆಚ್ಚಾಗಿ ಡಿಜಿಟಲ್ ಕುರುಹುಗಳು ಕರೆಯಲಾಗುತ್ತದೆ, ಮತ್ತು ಹುಡುಕಾಟ ಎಂಜಿನ್ ಪ್ರಶ್ನೆಗೆ ದಾಖಲೆಗಳು, ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮ ಪೋಸ್ಟ್ಗಳನ್ನು ವಿಷಯಗಳನ್ನು ಒಳಗೊಂಡಿದೆ, ಮತ್ತು ಮೊಬೈಲ್ ದಾಖಲೆಗಳನ್ನು ಕರೆ. ವಿಮರ್ಶಾತ್ಮಕವಾಗಿ, ಈ ವ್ಯಾಪಾರ ಆಡಳಿತಾತ್ಮಕ ದಾಖಲೆಗಳನ್ನು ಕೇವಲ ಆನ್ಲೈನ್ ನಡವಳಿಕೆ ಬಗ್ಗೆ ಅಲ್ಲ. ಉದಾಹರಣೆಗೆ, ಚೆಕ್ ಔಟ್ ಸ್ಕ್ಯಾನರ್ಗಳು ಬಳಸುವ ಅಂಗಡಿಗಳಲ್ಲಿ ಕಾರ್ಮಿಕರ ಸಾಮರ್ಥ್ಯ ನಿಜಾವಧಿಯ ಕ್ರಮಗಳನ್ನು ರಚಿಸುತ್ತಿರುವ. ನಾನು ನಂತರ ಈ ಅಧ್ಯಾಯದಲ್ಲಿ ಬಗ್ಗೆ ಹೇಳುತ್ತೇನೆ ಒಂದು ಅಧ್ಯಯನದಲ್ಲಿ, ಅಲೆಕ್ಸಾಂಡ್ರೆ ಮಾಸ್ ಮತ್ತು ಎನ್ರಿಕೊ ಮೊರೆಟ್ಟಿ (2009) ಕಾರ್ಮಿಕರ ಉತ್ಪಾದಕತೆ ತಮ್ಮ ಗೆಳೆಯರೊಂದಿಗೆ ಉತ್ಪಾದಕತೆ ಪ್ರಭಾವ ಬೀರಿವೆ ಎಂಬುದನ್ನು ಅಧ್ಯಯನ ಮಾಡಲು ಈ ಸೂಪರ್ಮಾರ್ಕೆಟ್ ಚೆಕ್ ಔಟ್ ಡೇಟಾ repurposed.

ಈ ಉದಾಹರಣೆಗಳಲ್ಲಿ ಎರಡೂ ವಿವರಿಸುತ್ತದೆ ಎಂದು, Repurposing ಕಲ್ಪನೆಯನ್ನು ದೊಡ್ಡ ದಶಮಾಂಶ ಕಲಿತು ಮೂಲವಾಗಿದೆ. ನನ್ನ ಅನುಭವದಲ್ಲಿ, ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನಿಗಳು ಮತ್ತು ಮಾಹಿತಿ ವಿಜ್ಞಾನಿಗಳು ಈ ಬಹಳ ವಿಭಿನ್ನವಾಗಿ repurposing ಬರಬಾರದು. ಸಂಶೋಧನೆಗೆ ವಿನ್ಯಾಸಗೊಳಿಸಿದ ದತ್ತಾಂಶ ಕೆಲಸ ಒಗ್ಗಿಕೊಂಡಿರಲಿಲ್ಲವಾದ್ದರಿಂದ ಯಾರು ಸಮಾಜ ವಿಜ್ಞಾನಿಗಳು ಅದರ ಸಾಮರ್ಥ್ಯ ನಿರ್ಲಕ್ಷಿಸುತ್ತಾ repurposed ದತ್ತಾಂಶಗಳಲ್ಲಿ ತೊಂದರೆಯಿತ್ತು ಎತ್ತಿ ತ್ವರಿತ. ಮತ್ತೊಂದೆಡೆ, ಮಾಹಿತಿ ವಿಜ್ಞಾನಿಗಳು ತನ್ನ ದೌರ್ಬಲ್ಯಗಳನ್ನು ನಿರ್ಲಕ್ಷಿಸುತ್ತಾ repurposed ಡೇಟಾ ಪ್ರಯೋಜನಗಳನ್ನು ಎತ್ತಿ ತ್ವರಿತ. ಸ್ವಾಭಾವಿಕವಾಗಿ, ಉತ್ತಮ ವಿಧಾನ ಹೈಬ್ರಿಡ್ ಎಂದು. ಸಂಶೋಧಕರು ಡೇಟಾ ಒಳ್ಳೆಯ ಮತ್ತು ಕೆಟ್ಟ ಎರಡೂ ಮತ್ತು ನಂತರ ಅವರಿಂದ ಕಲಿಯಲು ಹೇಗೆ ಲೆಕ್ಕಾಚಾರ ಈ ಹೊಸ ಮೂಲಗಳಿಗೆ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಅಗತ್ಯವಿದೆ. ಮತ್ತು, ಈ ಅಧ್ಯಾಯದ ಉಳಿದ ಯೋಜನೆ. ಮುಂದೆ, ನಾನು ವ್ಯಾಪಾರ ಮತ್ತು ಸರ್ಕಾರದ ಆಡಳಿತ ಡೇಟಾ ಹತ್ತು ಸಾಮಾನ್ಯ ಗುಣಗಳನ್ನು ವಿವರಿಸಲು ಮಾಡುತ್ತದೆ. ನಂತರ, ನಾನು ಈ ಡೇಟಾ, ಈ ದತ್ತಾಂಶಗಳ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಸೂಕ್ತವಾಗಿವೆ ವಿಧಾನಗಳು ಬಳಸಬಹುದು ಮೂರು ಸಂಶೋಧನಾ ವಿಧಾನಗಳು ವಿವರಿಸಲು ಮಾಡುತ್ತದೆ.