2.3.6 ಪ್ರತಿನಿಧಿಸದ

ಈ ಅನುವಾದ ಒಂದು ಕಂಪ್ಯೂಟರ್ ರಚಿಸಲಾಗಿದೆ. ×

2.3.6 ಪ್ರತಿನಿಧಿಸದ

ಮಾನ್ಯತೆರಹಿತ ಡೇಟಾವು ಔಟ್-ಆಫ್-ಸ್ಯಾಂಪಲ್ ಸಾಮಾನ್ಯೀಕರಣಗಳಿಗೆ ಕೆಟ್ಟದ್ದಾಗಿರುತ್ತದೆ, ಆದರೆ ಒಳ-ಮಾದರಿ ಹೋಲಿಕೆಗಳಿಗೆ ಸಾಕಷ್ಟು ಉಪಯುಕ್ತವಾಗಿದೆ.

ಕೆಲವು ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನಿಗಳು ಒಂದು ನಿರ್ದಿಷ್ಟ ದೇಶದಲ್ಲಿನ ಎಲ್ಲಾ ಹಿರಿಯರಂತಹ ಉತ್ತಮವಾದ ಜನಸಂಖ್ಯೆಯ ಸಂಭವನೀಯ ಯಾದೃಚ್ಛಿಕ ಮಾದರಿಗಳಿಂದ ಬರುವ ಡೇಟಾದೊಂದಿಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸಲು ಒಗ್ಗಿಕೊಂಡಿರುತ್ತಾರೆ. ಈ ರೀತಿಯ ಡೇಟಾವನ್ನು ಪ್ರತಿನಿಧಿ ಡೇಟಾ ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ ಏಕೆಂದರೆ ಮಾದರಿ ದೊಡ್ಡ ಜನಸಂಖ್ಯೆಯನ್ನು "ಪ್ರತಿನಿಧಿಸುತ್ತದೆ". ಅನೇಕ ಸಂಶೋಧಕರು ಪ್ರತಿನಿಧಿಸುವ ಡೇಟಾವನ್ನು ಮತ್ತು ಕೆಲವು, ಪ್ರತಿನಿಧಿ ದತ್ತಾಂಶವು ಕಠಿಣ ವಿಜ್ಞಾನಕ್ಕೆ ಸಮಾನಾರ್ಥಕವಾಗಿದೆ, ಆದರೆ ಪ್ರತಿನಿಧಿಸದ ದತ್ತಾಂಶವು ನಿಧಾನತೆಗೆ ಸಮಾನಾರ್ಥಕವಾಗಿದೆ. ಅತ್ಯಂತ ವಿಪರೀತವಾಗಿ, ಕೆಲವು ಸಂದೇಹವಾದಿಗಳು ಪ್ರತಿನಿಧಿಸದ ದತ್ತಾಂಶದಿಂದ ಏನೂ ಕಲಿಯಬಾರದು ಎಂದು ನಂಬುತ್ತಾರೆ. ನಿಜವೆನಿಸಿದರೆ, ಇದು ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳಿಂದ ಕಲಿಯಬಹುದಾದ ಏನನ್ನು ತೀವ್ರವಾಗಿ ಮಿತಿಗೊಳಿಸುತ್ತದೆ ಎಂದು ತೋರುತ್ತದೆ ಏಕೆಂದರೆ ಅವುಗಳಲ್ಲಿ ಹಲವು ಪ್ರತಿನಿಧಿಗಳು. ಅದೃಷ್ಟವಶಾತ್, ಈ ಸಂದೇಹವಾದಿಗಳು ಕೇವಲ ಭಾಗಶಃ ಮಾತ್ರ. ಪ್ರತಿನಿಧಿಸದ ದತ್ತಾಂಶವು ಸ್ಪಷ್ಟವಾಗಿ ಸೂಕ್ತವಲ್ಲ ಎಂದು ಕೆಲವು ಸಂಶೋಧನಾ ಗುರಿಗಳು ಇವೆ, ಆದರೆ ಇತರವುಗಳು ನಿಜವಾಗಿ ಉಪಯುಕ್ತವಾಗಬಹುದು.

ಈ ವ್ಯತ್ಯಾಸವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು, ನಾವು ವೈಜ್ಞಾನಿಕ ಶ್ರೇಷ್ಠತೆಯನ್ನು ಪರಿಗಣಿಸೋಣ: ಲಂಡನ್ನಲ್ಲಿ 1853-54ರ ಕಾಲರಾ ಏಕಾಏಕಿ ಕುರಿತು ಜಾನ್ ಸ್ನೋ ಅವರ ಅಧ್ಯಯನ. ಆ ಸಮಯದಲ್ಲಿ, "ಕೆಟ್ಟ ಗಾಳಿಯಿಂದ" ಕಾಲರಾ ಉಂಟಾಗಿದೆಯೆಂದು ಅನೇಕ ವೈದ್ಯರು ನಂಬಿದ್ದರು, ಆದರೆ ಸ್ನೋ ಇದು ಸಾಂಕ್ರಾಮಿಕ ಕಾಯಿಲೆ ಎಂದು ನಂಬಿತು, ಬಹುಶಃ ಚರಂಡಿ-ಲೇಪಿತ ಕುಡಿಯುವ ನೀರು ಹರಡಿತು. ಈ ಪರಿಕಲ್ಪನೆಯನ್ನು ಪರೀಕ್ಷಿಸಲು, ನಾವು ಈಗ ನೈಸರ್ಗಿಕ ಪ್ರಯೋಗವನ್ನು ಕರೆಯುವ ಪ್ರಯೋಜನವನ್ನು ಹಿಮವು ಪಡೆದುಕೊಂಡಿದೆ. ಅವನು ಎರಡು ವಿಭಿನ್ನ ನೀರಿನ ಕಂಪನಿಗಳಿಂದ ಸೇವೆ ಸಲ್ಲಿಸಿದ ಕಾಲರಾ ದರವನ್ನು ಹೋಲಿಸಿದ್ದಾನೆ: ಲ್ಯಾಂಬೆತ್ ಮತ್ತು ಸೌತ್ವಾರ್ಕ್ & ವಾಕ್ಸ್ಹಾಲ್. ಈ ಕಂಪನಿಗಳು ಒಂದೇ ಮನೆಗಳಲ್ಲಿ ಸೇವೆ ಸಲ್ಲಿಸಿದವು, ಆದರೆ ಅವು ಒಂದು ಪ್ರಮುಖ ರೀತಿಯಲ್ಲಿ ಭಿನ್ನವಾಗಿದ್ದವು: 1849 ರಲ್ಲಿ - ಸಾಂಕ್ರಾಮಿಕ ಪ್ರಾರಂಭವಾಗುವ ಕೆಲವು ವರ್ಷಗಳ ಮುಂಚೆ - ಲ್ಯಾಂಬೆತ್ ಲಂಡನ್ನಲ್ಲಿನ ಮುಖ್ಯ ಕೊಳಚೆನೀರಿನ ವಿಸರ್ಜನೆಯಿಂದ ತನ್ನ ಸೇವನೆಯ ಬಿಂದುವನ್ನು ಅಪ್ಸ್ಟ್ರೀಮ್ಗೆ ಸ್ಥಳಾಂತರಿಸಿದೆ, ಆದರೆ ಸೌತ್ವಾರ್ಕ್ ಮತ್ತು ವಾಕ್ಸ್ಹಾಲ್ ತಮ್ಮ ಸೇವನೆಯ ಪೈಪ್ ಕೆಳಗಿಳಿಯುತ್ತವೆ. ಚರಂಡಿ ವಿಸರ್ಜನೆ. ಸ್ನೋ ಕಂಪನಿಯು ಎರಡು ಕಂಪೆನಿಗಳು ಸೇವೆ ಸಲ್ಲಿಸಿದ ಮನೆಗಳಲ್ಲಿನ ಕಾಲರಾದಿಂದ ಸಾವಿನ ಪ್ರಮಾಣವನ್ನು ಹೋಲಿಸಿದಾಗ, ಗ್ರಾಹಕರು ಚರಂಡಿ-ಕೊಳೆತ ನೀರನ್ನು ಒದಗಿಸುವ ಸೌತ್ವಾರ್ಕ್ & ವಾಕ್ಸ್ಹಾಲ್ ಕಂಪೆನಿಯು ಕಾಲರಾದಿಂದ ಸಾಯುವ ಸಾಧ್ಯತೆಯಿದೆ ಎಂದು ಅವರು ಕಂಡುಕೊಂಡರು. ಲಂಡನ್ನ ಜನರ ಪ್ರತಿನಿಧಿ ಮಾದರಿಯನ್ನು ಆಧರಿಸದಿದ್ದರೂ, ಈ ಫಲಿತಾಂಶವು ಕಾಲರಾ ಕಾರಣದಿಂದಾಗಿ ಹಿಮದ ವಾದಕ್ಕೆ ಬಲವಾದ ವೈಜ್ಞಾನಿಕ ಪುರಾವೆಗಳನ್ನು ನೀಡುತ್ತದೆ.

ಆದಾಗ್ಯೂ, ಈ ಎರಡು ಕಂಪನಿಗಳ ದತ್ತಾಂಶವು ವಿಭಿನ್ನ ಪ್ರಶ್ನೆಗೆ ಉತ್ತರ ನೀಡಲು ಸೂಕ್ತವಲ್ಲ: ಲಂಡನ್ನಲ್ಲಿ ಸಂಭವಿಸಿದ ಕಾಲರಾದಲ್ಲಿನ ಪ್ರವೃತ್ತಿ ಏನು? ಆ ಎರಡನೇ ಪ್ರಶ್ನೆಗೆ, ಇದು ಮುಖ್ಯವಾದುದು, ಲಂಡನ್ನಿಂದ ಪ್ರತಿನಿಧಿಸುವ ಜನರ ಮಾದರಿ ಹೊಂದಲು ಇದು ಉತ್ತಮವಾಗಿದೆ.

ಸ್ನೋನ ಕೆಲಸವು ವಿವರಿಸಿದಂತೆ, ಪ್ರತಿನಿಧಿಸದ ದತ್ತಾಂಶವು ಸಾಕಷ್ಟು ಪರಿಣಾಮಕಾರಿಯಾಗಬಲ್ಲಂತಹ ಕೆಲವೊಂದು ವೈಜ್ಞಾನಿಕ ಪ್ರಶ್ನೆಗಳಿವೆ ಮತ್ತು ಇತರವುಗಳು ಸೂಕ್ತವಾಗಿಲ್ಲ. ಈ ಎರಡು ವಿಧದ ಪ್ರಶ್ನೆಗಳನ್ನು ಪ್ರತ್ಯೇಕಿಸಲು ಒಂದು ಕಚ್ಚಾ ಮಾರ್ಗವೆಂದರೆ ಕೆಲವು ಪ್ರಶ್ನೆಗಳು ಒಳ-ಮಾದರಿಯ ಹೋಲಿಕೆಗಳಾಗಿದ್ದು ಕೆಲವು ಮಾದರಿಗಳ ಸಾಮಾನ್ಯ ಸಾಮಾನ್ಯತೆಗಳು. ಎಪಿಡೆಮಿಯೋಲಜಿಯಲ್ಲಿನ ಮತ್ತೊಂದು ಶ್ರೇಷ್ಠ ಅಧ್ಯಯನದಿಂದ ಈ ವ್ಯತ್ಯಾಸವನ್ನು ಮತ್ತಷ್ಟು ವಿವರಿಸಬಹುದು: ಬ್ರಿಟಿಷ್ ಡಾಕ್ಟರ್ಸ್ ಸ್ಟಡಿ, ಇದು ಧೂಮಪಾನ ಕ್ಯಾನ್ಸರ್ಗೆ ಕಾರಣವಾಗುತ್ತದೆ ಎಂದು ನಿರೂಪಿಸುವಲ್ಲಿ ಪ್ರಮುಖ ಪಾತ್ರ ವಹಿಸಿದೆ. ಈ ಅಧ್ಯಯನದಲ್ಲಿ, ರಿಚರ್ಡ್ ಡಾಲ್ ಮತ್ತು A. ಬ್ರಾಡ್ಫೋರ್ಡ್ ಹಿಲ್ ಸುಮಾರು 25,000 ಪುರುಷ ವೈದ್ಯರನ್ನು ಹಲವಾರು ವರ್ಷಗಳಿಂದ ಅನುಸರಿಸಿದರು ಮತ್ತು ಅಧ್ಯಯನದ ಪ್ರಾರಂಭವಾದಾಗ ಅವರು ಧೂಮಪಾನ ಮಾಡಿದ ಪ್ರಮಾಣವನ್ನು ಆಧರಿಸಿ ಅವರ ಸಾವಿನ ಪ್ರಮಾಣವನ್ನು ಹೋಲಿಸಿದರು. ಡಾಲ್ ಅಂಡ್ ಹಿಲ್ (1954) ಬಲವಾದ ಮಾನ್ಯತೆ-ಪ್ರತಿಕ್ರಿಯೆಯ ಸಂಬಂಧವನ್ನು ಕಂಡುಕೊಂಡರು: ಹೆಚ್ಚು ಜನ ಧೂಮಪಾನ ಮಾಡಿದವರು, ಅವರು ಹೆಚ್ಚಾಗಿ ಶ್ವಾಸಕೋಶದ ಕ್ಯಾನ್ಸರ್ನಿಂದ ಸಾಯುವರು. ಸಹಜವಾಗಿ, ಪುರುಷ ವೈದ್ಯರ ಈ ಗುಂಪಿನ ಆಧಾರದ ಮೇಲೆ ಎಲ್ಲಾ ಬ್ರಿಟಿಷ್ ಜನರಲ್ಲಿ ಶ್ವಾಸಕೋಶದ ಕ್ಯಾನ್ಸರ್ನ ಹರಡುವಿಕೆಯನ್ನು ಅಂದಾಜು ಮಾಡುವುದು ಅವಿವೇಕಿತವಾಗಿರುತ್ತದೆ, ಆದರೆ ಒಳ-ಮಾದರಿ ಹೋಲಿಕೆ ಇನ್ನೂ ಧೂಮಪಾನ ಶ್ವಾಸಕೋಶದ ಕ್ಯಾನ್ಸರ್ಗೆ ಕಾರಣವಾಗುತ್ತದೆ ಎಂಬ ಸಾಕ್ಷ್ಯವನ್ನು ನೀಡುತ್ತದೆ.

ಈಗ ಮಾದರಿ ಮಾದರಿ ಹೋಲಿಕೆಗಳು ಮತ್ತು ಔಟ್-ಆಫ್-ಸ್ಯಾಂಪಲ್ ಸಾಮಾನ್ಯೀಕರಣಗಳ ನಡುವಿನ ವ್ಯತ್ಯಾಸವನ್ನು ನಾನು ವಿವರಿಸಿದ್ದೇನೆ, ಎರಡು ಕಾಯೇವ್ಗಳು ಕ್ರಮದಲ್ಲಿವೆ. ಮೊದಲನೆಯದಾಗಿ, ಗಂಡು ಬ್ರಿಟಿಷ್ ವೈದ್ಯರ ಮಾದರಿಯಲ್ಲಿರುವ ಸಂಬಂಧವು ಹೆಣ್ಣು, ಬ್ರಿಟಿಷ್ ವೈದ್ಯರು ಅಥವಾ ಪುರುಷ ಬ್ರಿಟಿಷ್ ಫ್ಯಾಕ್ಟರಿ ಕಾರ್ಮಿಕರ ಅಥವಾ ಸ್ತ್ರೀ ಜರ್ಮನ್ ಕಾರ್ಖಾನೆ ಕಾರ್ಮಿಕರ ಅಥವಾ ಹಲವಾರು ಇತರ ಗುಂಪುಗಳ ಮಾದರಿಯೊಳಗೆ ಹಿಡಿದಿಟ್ಟುಕೊಳ್ಳುವ ಮಟ್ಟಿಗೆ ನೈಸರ್ಗಿಕವಾಗಿ ಪ್ರಶ್ನೆಗಳಿವೆ. ಈ ಪ್ರಶ್ನೆಗಳು ಕುತೂಹಲಕಾರಿ ಮತ್ತು ಪ್ರಮುಖವಾಗಿವೆ, ಆದರೆ ಒಂದು ಮಾದರಿಯಿಂದ ಜನಸಂಖ್ಯೆಗೆ ನಾವು ಸಾಮಾನ್ಯೀಕರಿಸಬಹುದಾದ ವ್ಯಾಪ್ತಿಯ ಕುರಿತು ಅವು ಭಿನ್ನವಾಗಿರುತ್ತವೆ. ಉದಾಹರಣೆಗಾಗಿ, ಪುರುಷ ಬ್ರಿಟಿಷ್ ವೈದ್ಯರಲ್ಲಿ ಕಂಡುಬಂದ ಧೂಮಪಾನ ಮತ್ತು ಕ್ಯಾನ್ಸರ್ ನಡುವಿನ ಸಂಬಂಧವು ಬಹುಶಃ ಈ ಇತರ ಗುಂಪುಗಳಲ್ಲಿ ಹೋಲುತ್ತದೆ ಎಂದು ನೀವು ಬಹುಶಃ ಸಂಶಯಿಸುತ್ತಾರೆ. ಪುರುಷ ಬ್ರಿಟಿಷ್ ವೈದ್ಯರು ಯಾವುದೇ ಜನಸಂಖ್ಯೆಯ ಒಂದು ಸಂಭವನೀಯ ಯಾದೃಚ್ಛಿಕ ಮಾದರಿ ಎಂದು ಈ ಬಹಿಷ್ಕಾರ ಮಾಡುವ ನಿಮ್ಮ ಸಾಮರ್ಥ್ಯವು ಬರುವುದಿಲ್ಲ; ಬದಲಿಗೆ, ಇದು ಧೂಮಪಾನ ಮತ್ತು ಕ್ಯಾನ್ಸರ್ಗೆ ಸಂಬಂಧಿಸಿರುವ ಯಾಂತ್ರಿಕತೆಯ ಅರ್ಥದಿಂದ ಬರುತ್ತದೆ. ಆದ್ದರಿಂದ, ಮಾದರಿಯಿಂದ ಜನಸಂಖ್ಯೆಗೆ ಎಳೆಯುವ ಜನಸಂಖ್ಯೆಯು ಹೆಚ್ಚಾಗಿ ಸಂಖ್ಯಾಶಾಸ್ತ್ರದ ವಿಷಯವಾಗಿದೆ, ಆದರೆ ಒಂದು ಗುಂಪಿನಲ್ಲಿ ಇನ್ನೊಂದು ಗುಂಪಿಗೆ ಕಂಡುಬರುವ ಮಾದರಿಯ ಸಾಗಣೆಯ ಬಗೆಗಿನ ಪ್ರಶ್ನೆಗಳು ಹೆಚ್ಚಾಗಿ (Pearl and Bareinboim 2014; Pearl 2015) ವಿವಾದಾಂಶ (Pearl and Bareinboim 2014; Pearl 2015) .

ಈ ಹಂತದಲ್ಲಿ, ಧೂಮಪಾನ ಮತ್ತು ಕ್ಯಾನ್ಸರ್ ನಡುವಿನ ಸಂಬಂಧವನ್ನು ಹೊರತುಪಡಿಸಿ ಹೆಚ್ಚಿನ ಸಾಮಾಜಿಕ ಮಾದರಿಗಳು ಗುಂಪುಗಳಾದ್ಯಂತ ಕಡಿಮೆ ಸಾಗಣೆಗೆ ಒಳಗಾಗುವ ಸಾಧ್ಯತೆ ಇದೆ ಎಂದು ಒಬ್ಬ ಸಂಶಯ ವ್ಯಕ್ತಪಡಿಸಬಹುದು. ಮತ್ತು ನಾನು ಒಪ್ಪುತ್ತೇನೆ. ಮಾದರಿಗಳನ್ನು ಸಾಗಣೆಯನ್ನಾಗಿ ನಾವು ನಿರೀಕ್ಷಿಸಬೇಕೆಂಬುದು ಅಂತಿಮವಾಗಿ ಒಂದು ವೈಜ್ಞಾನಿಕ ಪ್ರಶ್ನೆಯಾಗಿದ್ದು ಅದು ಸಿದ್ಧಾಂತ ಮತ್ತು ಸಾಕ್ಷ್ಯದ ಆಧಾರದ ಮೇಲೆ ನಿರ್ಧರಿಸಬೇಕಿದೆ. ಮಾದರಿಗಳನ್ನು ರವಾನಿಸಬಹುದು ಎಂದು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಭಾವಿಸಬಾರದು, ಆದರೆ ಅವು ಸಾಗಿಸಬಾರದು ಎಂದು ಊಹಿಸಬಾರದು. ಪದವಿಪೂರ್ವ ವಿದ್ಯಾರ್ಥಿಗಳನ್ನು (Sears 1986, [@henrich_most_2010] ) ಅಧ್ಯಯನ ಮಾಡುವ ಮೂಲಕ ಮಾನವ ವರ್ತನೆಯನ್ನು ಕುರಿತು ಎಷ್ಟು ಸಂಶೋಧಕರು (Sears 1986, [@henrich_most_2010] ) ಚರ್ಚೆಗಳನ್ನು ನೀವು ಅನುಸರಿಸಿದರೆ ಸಾಗಣೆಯ ಬಗ್ಗೆ ಈ ಅಲ್ಪವಾದ ಅಮೂರ್ತ ಪ್ರಶ್ನೆಗಳನ್ನು ನಿಮಗೆ ತಿಳಿದಿರುತ್ತದೆ. ಈ ಚರ್ಚೆಗಳ ಹೊರತಾಗಿಯೂ, ಪದವಿಪೂರ್ವ ವಿದ್ಯಾರ್ಥಿಗಳನ್ನು ಅಧ್ಯಯನ ಮಾಡುವ ಮೂಲಕ ಸಂಶೋಧಕರು ಏನನ್ನೂ ಕಲಿಯಲು ಸಾಧ್ಯವಿಲ್ಲ ಎಂದು ಹೇಳುವುದು ಅಸಮಂಜಸವಾಗಿದೆ.

ಎರಡನೆಯ ತಿದ್ದುಪಡಿಯೆಂದರೆ, ಪ್ರತಿನಿಧಿಸದ ಮಾಹಿತಿಯೊಂದಿಗಿನ ಹೆಚ್ಚಿನ ಸಂಶೋಧಕರು ಹಿಮ ಅಥವಾ ಡಾಲ್ ಮತ್ತು ಹಿಲ್ನಂತಹ ಜಾಗರೂಕರಾಗಿರುವುದಿಲ್ಲ. ಆದ್ದರಿಂದ, ಸಂಶೋಧಕರು ಪ್ರತಿನಿಧಿಸದ ಡೇಟಾದಿಂದ ಹೊರಗಿನ ಮಾದರಿ ಸಾಮಾನ್ಯೀಕರಣವನ್ನು ಮಾಡಲು ಪ್ರಯತ್ನಿಸಿದಾಗ ಏನು ತಪ್ಪಾಗಿರಬಹುದು ಎಂಬುದನ್ನು ವಿವರಿಸಲು, ಆಂಡ್ರನಿಕ್ ತುಮಾಸ್ಜನ್ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು (2010) 2009 ರ ಜರ್ಮನ್ ಸಂಸತ್ತಿನ ಚುನಾವಣೆಯ ಅಧ್ಯಯನವನ್ನು ನಾನು ನಿಮಗೆ ಹೇಳುತ್ತೇನೆ. 100,000 ಕ್ಕಿಂತಲೂ ಹೆಚ್ಚು ಟ್ವೀಟ್ಗಳನ್ನು ವಿಶ್ಲೇಷಿಸುವ ಮೂಲಕ, ರಾಜಕೀಯ ಪಕ್ಷವನ್ನು ಉಲ್ಲೇಖಿಸಿರುವ ಟ್ವೀಟ್ಗಳ ಪ್ರಮಾಣವು ಸಂಸತ್ತಿನ ಚುನಾವಣೆಯಲ್ಲಿ ಪಕ್ಷವು ಸ್ವೀಕರಿಸಿದ ಮತಗಳ ಪ್ರಮಾಣವನ್ನು (ಫಿಗರ್ 2.3) ಹೊಂದಿಕೆಯಾಗಿದೆ ಎಂದು ಅವರು ಕಂಡುಕೊಂಡರು. ಬೇರೆ ರೀತಿಯಲ್ಲಿ ಹೇಳುವುದಾದರೆ, ಮೂಲಭೂತವಾಗಿ ಉಚಿತವಾದ ಟ್ವಿಟರ್ ಡೇಟಾವನ್ನು ಸಾಂಪ್ರದಾಯಿಕ ಸಾರ್ವಜನಿಕ ಅಭಿಪ್ರಾಯ ಸಮೀಕ್ಷೆಗಳನ್ನು ಬದಲಾಯಿಸಬಹುದೆಂದು ಕಾಣಿಸಿಕೊಂಡಿತ್ತು, ಇದು ಪ್ರತಿನಿಧಿ ಮಾಹಿತಿಯ ಮೇಲಿನ ಮಹತ್ವದಿಂದಾಗಿ ದುಬಾರಿಯಾಗಿದೆ.

ನೀವು ಈಗಾಗಲೇ ಟ್ವಿಟ್ಟರ್ ಬಗ್ಗೆ ಈಗಾಗಲೇ ತಿಳಿದಿರುವ ಕಾರಣ, ನೀವು ತಕ್ಷಣ ಈ ಫಲಿತಾಂಶದ ಬಗ್ಗೆ ಸಂಶಯ ಇರಬೇಕು. 2009 ರಲ್ಲಿ ಟ್ವಿಟರ್ನಲ್ಲಿ ಜರ್ಮನ್ನರು ಜರ್ಮನ್ ಮತದಾರರ ಸಂಭವನೀಯ ಯಾದೃಚ್ಛಿಕ ಮಾದರಿಯಲ್ಲ, ಮತ್ತು ಕೆಲವು ಪಕ್ಷಗಳ ಬೆಂಬಲಿಗರು ಇತರ ಪಕ್ಷಗಳ ಬೆಂಬಲಿಗರಿಗಿಂತ ಹೆಚ್ಚಾಗಿ ರಾಜಕೀಯದ ಬಗ್ಗೆ ಟ್ವೀಟ್ ಮಾಡಬಹುದಾಗಿದೆ. ಹೀಗಾಗಿ, ನೀವು ಊಹಿಸಲು ಸಾಧ್ಯವಿರುವ ಎಲ್ಲಾ ಸಂಭವನೀಯ ದ್ವೇಷಗಳು ಜರ್ಮನಿಯ ಮತದಾರರ ಈ ಡೇಟಾವನ್ನು ನೇರವಾಗಿ ಪ್ರತಿಫಲಿಸುತ್ತದೆ ಎಂದು ಹೇಗಾದರೂ ರದ್ದುಗೊಳಿಸುತ್ತದೆ. ವಾಸ್ತವವಾಗಿ, Tumasjan et al. (2010) ಫಲಿತಾಂಶಗಳು Tumasjan et al. (2010) ತುಂಬಾ ಒಳ್ಳೆಯದು ಎಂದು ತಿರುಗಿತು. ಆಂಡ್ರಿಯಾಸ್ ಜಂಗೇರ್ರ್, ಪ್ಯಾಸ್ಕಲ್ ಜುರ್ಜೆನ್ಸ್, ಮತ್ತು ಹರಾಲ್ಡ್ ಸ್ಕೊಯೆನ್ (2012) ರವರ ಮುಂದಿನ ಲೇಖನವು, ಮೂಲಭೂತ ವಿಶ್ಲೇಷಣೆಯು ರಾಜಕೀಯ ಪಕ್ಷವನ್ನು ನಿಜವಾಗಿ ಟ್ವಿಟ್ಟರ್ನಲ್ಲಿ ಉಲ್ಲೇಖಿಸಿರುವುದನ್ನು ಹೊರತುಪಡಿಸಿದೆ ಎಂದು ತಿಳಿಸಿತು: ಸರ್ಕಾರದ ನಿಯಂತ್ರಣಕ್ಕೆ ಹೋರಾಡುವ ಸಣ್ಣ ಪಕ್ಷವಾದ ಪೈರೇಟ್ ಪಾರ್ಟಿ ಇಂಟರ್ನೆಟ್. ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ ಪೈರೇಟ್ ಪಾರ್ಟಿಯನ್ನು ಸೇರಿಸಿದಾಗ, ಟ್ವಿಟ್ಟರ್ ಹೇಳಿಕೆಯು ಚುನಾವಣಾ ಫಲಿತಾಂಶಗಳ ಭೀಕರವಾದ ಭವಿಷ್ಯಸೂಚಕ (ಫಿಗರ್ 2.3) ಆಗುತ್ತದೆ. ಈ ಉದಾಹರಣೆಯು ವಿವರಿಸಿರುವಂತೆ, ಔಟ್-ಆಫ್-ಸ್ಯಾಂಪಲ್ ಸಾಮಾನ್ಯೀಕರಣಗಳನ್ನು ಮಾಡಲು ಪ್ರತಿನಿಧಿಸದ ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳನ್ನು ಬಳಸುವುದು ಅತ್ಯಂತ ತಪ್ಪಾಗಿದೆ. ಅಲ್ಲದೆ, 100,000 ಟ್ವಿಟ್ಗಳು ಇದ್ದವು ಎಂಬ ಅಂಶವು ಮೂಲಭೂತವಾಗಿ ಅಪ್ರಸ್ತುತವಾಗಿದೆ ಎಂದು ನೀವು ಗಮನಿಸಬೇಕು: ಸಮೀಕ್ಷೆ ಕುರಿತು ನಾನು ಚರ್ಚಿಸಿದಾಗ ಅಧ್ಯಾಯ 3 ರಲ್ಲಿ ನಾನು ಹಿಂದಿರುಗುವ ಒಂದು ಥೀಮ್ ಇನ್ನೂ ಪ್ರತಿನಿಧಿಯಾಗಿಲ್ಲ.

ಚಿತ್ರ 2.3: ಟ್ವಿಟ್ಟರ್ ಉಲ್ಲೇಖಗಳು 2009 ರ ಜರ್ಮನ್ ಚುನಾವಣೆಯ (ತುಮಸ್ಜನ್ ಮತ್ತು ಇತರರು 2010) ಫಲಿತಾಂಶಗಳನ್ನು ಊಹಿಸಲು ಕಂಡುಬರುತ್ತವೆ, ಆದರೆ ಇದು ಹೆಚ್ಚು ಉಲ್ಲೇಖವನ್ನು ಹೊಂದಿರುವ ಪಾರ್ಟಿಯನ್ನು ಬಹಿಷ್ಕರಿಸುತ್ತದೆ: ಪೈರೇಟ್ ಪಾರ್ಟಿ (ಜುಂಗೇರ್ರ್, ಜುರ್ಜೆನ್ಸ್ ಮತ್ತು ಸ್ಕೋನ್ 2012). ತುಮಾಸ್ಜನ್ ಮತ್ತು ಇತರರು ನೋಡಿ. (2012) ಪೈರೇಟ್ ಪಕ್ಷವನ್ನು ಹೊರತುಪಡಿಸಿ ಪರವಾಗಿ ಚರ್ಚೆಗೆ. ತುಮಾಸ್ಜನ್ ಮತ್ತು ಇತರರಿಂದ ಅಳವಡಿಸಿಕೊಳ್ಳಲಾಗಿದೆ. (2010), ಟೇಬಲ್ 4 ಮತ್ತು ಜಂಗೇರ್ರ್, ಜುರ್ಜೆನ್ಸ್, ಮತ್ತು ಷೋಯೆನ್ (2012), ಟೇಬಲ್ 2.

ಚಿತ್ರ 2.3: ಟ್ವಿಟ್ಟರ್ ಉಲ್ಲೇಖಗಳು 2009 ರ ಜರ್ಮನ್ ಚುನಾವಣೆಯ (Tumasjan et al. 2010) ಫಲಿತಾಂಶಗಳನ್ನು ಊಹಿಸಲು ಕಂಡುಬರುತ್ತವೆ, ಆದರೆ ಇದು ಹೆಚ್ಚು ಉಲ್ಲೇಖವನ್ನು ಹೊಂದಿರುವ ಪಾರ್ಟಿಯನ್ನು ಬಹಿಷ್ಕರಿಸುತ್ತದೆ: ಪೈರೇಟ್ ಪಾರ್ಟಿ (Jungherr, Jürgens, and Schoen 2012) . Tumasjan et al. (2012) ನೋಡಿ Tumasjan et al. (2012) ಪೈರೇಟ್ ಪಕ್ಷವನ್ನು ಹೊರತುಪಡಿಸಿ ಪರವಾಗಿ ಚರ್ಚೆಗೆ. Tumasjan et al. (2010) ಅಳವಡಿಸಿಕೊಳ್ಳಲಾಗಿದೆ Tumasjan et al. (2010) , ಟೇಬಲ್ 4 ಮತ್ತು Jungherr, Jürgens, and Schoen (2012) , ಟೇಬಲ್ 2.

ತೀರ್ಮಾನಿಸಲು, ಹಲವಾರು ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳು ಕೆಲವು ಉತ್ತಮ ಜನಸಂಖ್ಯೆಯ ಪ್ರತಿನಿಧಿ ಮಾದರಿಗಳಾಗಿರುವುದಿಲ್ಲ. ಮಾದರಿಯಿಂದ ಇದು ಎಳೆಯಲ್ಪಟ್ಟ ಜನಸಂಖ್ಯೆಗೆ ಸಾಮಾನ್ಯ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುವ ಪ್ರಶ್ನೆಗಳಿಗೆ, ಇದು ಗಂಭೀರ ಸಮಸ್ಯೆಯಾಗಿದೆ. ಆದರೆ ಮಾದರಿ ಮಾದರಿಯ ಹೋಲಿಕೆಗಳ ಬಗ್ಗೆ ಪ್ರಶ್ನೆಗಳಿಗೆ, ಪ್ರತಿನಿಧಿಗಳು ತಮ್ಮ ಮಾದರಿಯ ಗುಣಲಕ್ಷಣಗಳ ಬಗ್ಗೆ ಮತ್ತು ಸೈದ್ಧಾಂತಿಕ ಅಥವಾ ಪ್ರಾಯೋಗಿಕ ಸಾಕ್ಷ್ಯಗಳೊಂದಿಗೆ ಸಾಗಣೆಯ ಬಗ್ಗೆ ಬೆಂಬಲ ಹಕ್ಕುಗಳ ಬಗ್ಗೆ ಸ್ಪಷ್ಟವಾಗಿ ತಿಳಿದಿಲ್ಲವಾದರೂ, ಪ್ರತಿನಿಧಿಸದ ದತ್ತಾಂಶವು ಶಕ್ತಿಯುತವಾಗಿದೆ. ವಾಸ್ತವವಾಗಿ, ದೊಡ್ಡ ದತ್ತಾಂಶ ಮೂಲಗಳು ಸಂಶೋಧಕರನ್ನು ಅನೇಕ ಪ್ರತಿನಿಧಿಸದ ಗುಂಪುಗಳಲ್ಲಿ ಹೆಚ್ಚಿನ ಮಾದರಿಯ ಹೋಲಿಕೆಗಳನ್ನು ಮಾಡಲು ಸಾಧ್ಯವಾಗುವುದೆಂದು ನನ್ನ ನಿರೀಕ್ಷೆ ಇದೆ ಮತ್ತು ನನ್ನ ಊಹೆ ಅನೇಕ ಸಂಭವನೀಯ ಗುಂಪುಗಳಿಂದ ಅಂದಾಜುಗಳು ಸಂಭವನೀಯ ಯಾದೃಚ್ಛಿಕ ಮಾದರಿ.