2.2 బిగ్ డేటా

పెద్ద డేటా సంస్థలు మరియు ప్రభుత్వాలు పరిశోధన కాకుండా ఇతర ప్రయోజనాల కోసం సృష్టించబడతాయి మరియు సేకరించబడతాయి. పరిశోధన కోసం ఈ డేటాను ఉపయోగించడం, అందువలన, పునఃప్రారంభించాల్సిన అవసరం ఉంది.

డిజిటల్ వయస్సులో చాలామంది వ్యక్తులు సాంఘిక పరిశోధనను ఎదుర్కొంటున్న మొట్టమొదటి మార్గం ఏమిటంటే పెద్ద డేటా అంటారు. ఈ పదం యొక్క విస్తృత వినియోగం ఉన్నప్పటికీ, ఏ పెద్ద డేటా కూడా ఏకాభిప్రాయం లేదు. ఏదేమైనా, పెద్ద డేటా యొక్క అత్యంత సాధారణ నిర్వచనాలలో ఒకటి "3 Vs": వాల్యూమ్, వెరైటీ, మరియు వెలాసిటీ. సుమారుగా, అనేక ఫార్మాట్లలో డేటా చాలా ఉంది, మరియు ఇది నిరంతరం సృష్టించబడుతోంది. పెద్ద డేటా యొక్క కొంతమంది అభిమానులు కూడా "వెర్సెస్" వంటి ఇతర "Vs" లను కూడా జతచేస్తారు, అయితే కొంతమంది విమర్శకులు అస్పష్టమైన మరియు అవాంఛిత వంటివాటిని కలిగి ఉంటారు. సోషల్ రీసెర్చ్ ప్రయోజనాల కోసం 3 "Vs" (లేదా 5 "Vs" లేదా 7 "Vs") కంటే, 5 "WS" అనేది ఒక మంచి ప్రదేశం అని నేను భావిస్తున్నాను: ఎవరు, వాట్, ఎప్పుడు, ఎప్పుడు , మరియు ఎందుకు. నిజానికి, పెద్ద డేటా మూలాలచే సృష్టించబడిన అనేక సవాళ్లు మరియు అవకాశాలు కేవలం ఒక "W" నుండి అనుసరిస్తాయని నేను భావిస్తున్నాను.

సారూప్య వయస్సులో, పరిశోధన చేయటానికి ఉద్దేశించిన సామాజిక పరిశోధన కోసం ఉపయోగించే చాలా డేటా. డిజిటల్ యుగంలో, అయితే, సేవలు అందించడం, లాభాలను ఉత్పత్తి చేయడం మరియు చట్టాలను అమలు చేయడం వంటి పరిశోధన కాకుండా ఇతర ప్రయోజనాల కోసం కంపెనీలు మరియు ప్రభుత్వాలు భారీ సంఖ్యలో డేటాను సృష్టించడం జరుగుతుంది. అయితే, ఈ కార్పొరేట్ మరియు ప్రభుత్వ డేటా పరిశోధన కోసం మీరు మరలా చేయవచ్చు అని క్రియేటివ్ వ్యక్తులు గుర్తించారు. డచాంప్ కళను సృష్టించేందుకు ఒక దొరికిన వస్తువును మరలా చేయడంతో, అధ్యాయం 1 లో కళ సారూప్యతకు తిరిగి ఆలోచిస్తూ, శాస్త్రవేత్తలు ప్రస్తుతం పరిశోధనను రూపొందించడానికి కనుగొన్న డేటాను పునఃపరిశీలించారు.

పునర్వ్యవస్థీకరణకు నిస్సందేహంగా భారీ అవకాశాలు ఉన్నప్పటికీ, పరిశోధన ప్రయోజనాల కోసం సృష్టించబడని డేటాను ఉపయోగించి కొత్త సవాళ్లను కూడా అందిస్తుంది. ఉదాహరణకు, సోషల్ మీడియా సర్వీసెస్ ట్విట్టర్ వంటిది, సంప్రదాయ ప్రజల అభిప్రాయ సర్వేలో, జనరల్ సోషల్ సర్వే వంటివి. ట్విటర్ యొక్క ప్రధాన లక్ష్యాలు దాని వినియోగదారులకు ఒక సేవను అందిస్తాయి మరియు లాభాన్ని పొందడం. మరోవైపు, జనరల్ సోషల్ సర్వే సామాజిక పరిశోధన కోసం ప్రత్యేకించి ప్రజల అభిప్రాయ పరిశోధన కోసం సాధారణ-ప్రయోజన డేటాను సృష్టించడం పై కేంద్రీకరించబడింది. లక్ష్యాలలో ఈ వ్యత్యాసం ఏమిటంటే, ట్విట్టర్ మరియు జనరల్ సోషల్ సర్వేచే సృష్టించబడిన సమాచారం విభిన్న లక్షణాలను కలిగి ఉన్నాయి, రెండూ కూడా ప్రజల అభిప్రాయాన్ని అధ్యయనం చేయడానికి ఉపయోగించవచ్చు. ట్విటర్ జనరల్ సోషల్ సర్వే సరిపోలలేనంత స్థాయిలో మరియు వేగంతో పనిచేస్తుంది, కానీ, సాధారణ సామాజిక సర్వే వలె కాక, ట్విటర్ జాగ్రత్తగా వినియోగదారులను నమూనా చేయదు మరియు కాలక్రమేణా పోలికను నిర్వహించడానికి కష్టపడదు. ఈ రెండు డేటా మూలాల చాలా భిన్నంగా ఉన్నందున, జనరల్ సోషల్ సర్వే అనేది ట్విట్టర్ లేదా వైస్ వెర్సా కంటే మెరుగైనదని చెప్పడానికి అర్ధవంతం కాదు. మీరు గ్లోబల్ మూడ్ యొక్క గంట చర్యలు (ఉదా., Golder and Macy (2011) ) కావాలనుకుంటే, ట్విటర్ ఉత్తమం. మరోవైపు, యునైటెడ్ స్టేట్స్లోని వైఖరుల ధ్రువీకరణలో దీర్ఘకాల మార్పులను మీరు అర్థం చేసుకోవాలంటే (ఉదా. DiMaggio, Evans, and Bryson (1996) ), అప్పుడు జనరల్ సోషల్ సర్వే అనేది ఉత్తమ ఎంపిక. మరింత సాధారణంగా, పెద్ద డేటా మూలాల డేటా ఇతర రకాల కంటే మెరుగైన లేదా అధ్వాన్నంగా వాదించడానికి ప్రయత్నిస్తున్న కంటే, ఈ అధ్యాయం పరిశోధన డేటా రకాల పెద్ద డేటా మూలాల ఆకర్షణీయమైన లక్షణాలు కలిగి మరియు ఏ ప్రశ్నలకు రకాల ఇవి స్పష్టం చేయడానికి ప్రయత్నిస్తుంది ఆదర్శ.

పెద్ద డేటా మూలాల గురించి ఆలోచిస్తున్నప్పుడు, అనేకమంది పరిశోధకులు తక్షణమే శోధన ఇంజిన్ లాగ్లు మరియు సోషల్ మీడియా పోస్ట్లు వంటి కంపెనీలచే సృష్టించబడిన మరియు సేకరించిన ఆన్లైన్ డేటాపై దృష్టి పెట్టారు. అయితే, ఈ ఇరుకైన దృష్టి పెద్ద డేటా యొక్క రెండు ముఖ్యమైన వనరులను వదిలివేస్తుంది. మొదట, పెరుగుతున్న కార్పొరేట్ పెద్ద డేటా మూలాల భౌతిక ప్రపంచంలో డిజిటల్ పరికరాల నుండి వస్తాయి. ఉదాహరణకు, ఈ అధ్యాయంలో, ఒక ఉద్యోగి ఉత్పాదకతను ఆమె సహచరుల ఉత్పాదకత (Mas and Moretti 2009) ఎలా ప్రభావితం చేస్తుందో అధ్యయనం చేయడానికి సూపర్మార్కెట్ తనిఖీ చేసే డేటాను పునరావృతమయ్యే ఒక అధ్యయనం గురించి నేను మీకు తెలియజేస్తాను. తరువాత, తరువాతి అధ్యాయాల్లో, మొబైల్ ఫోన్లు (Blumenstock, Cadamuro, and On 2015) మరియు ఎలక్ట్రిక్ యుటిలిటీస్ (Allcott 2015) సృష్టించిన బిల్లింగ్ డేటా నుండి కాల్ రికార్డులను ఉపయోగించిన పరిశోధకులను నేను మీకు చెప్తాను. ఈ ఉదాహరణలు ఉదహరించినప్పుడు, కార్పొరేట్ పెద్ద డేటా మూలాలు కేవలం ఆన్లైన్ ప్రవర్తన కంటే ఎక్కువగా ఉంటాయి.

ఆన్లైన్ ప్రవర్తనపై ఇరుకైన దృష్టిని ఆకర్షించిన పెద్ద డేటా రెండో ముఖ్యమైన మూలం ప్రభుత్వాలు సృష్టించిన డేటా. పరిశోధకులు ప్రభుత్వ పరిపాలన రికార్డులను పిలిచే ఈ ప్రభుత్వ డేటా, పన్నుల రికార్డులు, పాఠశాల రికార్డులు, మరియు ముఖ్యమైన గణాంక నివేదికలు (ఉదాహరణకు జనన మరణాల రిజిస్ట్రీలు) వంటివి. కొన్ని సందర్భాల్లో, వందల సంవత్సరాలు, మరియు సాంఘిక శాస్త్రవేత్తలు సాంఘిక శాస్త్రవేత్తలు ఉన్నంతవరకు వాటిని ఈ రకమైన డేటాను రూపొందించారు. ఏది మార్పు చెందింది, అయితే, డిజిటైజేషన్, ఇది డేటాలను సేకరించడం, ప్రసారం చేయడం, నిల్వ చేయడం మరియు విశ్లేషించడం కోసం ఇది నాటకీయంగా సులభతరం చేసింది. ఉదాహరణకు, ఈ అధ్యాయంలో, నేను లేబర్ ఎకనామిక్స్ (Farber 2015) లో ప్రాథమిక చర్చను పరిష్కరించడానికి న్యూయార్క్ నగర ప్రభుత్వం యొక్క డిజిటల్ టాక్సీ మీటర్ నుండి డేటాను పునర్వ్యవస్థీకరించిన ఒక అధ్యయనం గురించి చెబుతాను. తరువాత, తరువాతి అధ్యాయాల్లో, ప్రభుత్వ సేకరణ ఓటింగ్ రికార్డులను సర్వేలో (Ansolabehere and Hersh 2012) మరియు ప్రయోగం (Bond et al. 2012) ఎలా ఉపయోగించాలో నేను మీకు చెబుతాను.

పెద్ద డేటా మూలాల (సెక్షన్ 2.3) యొక్క లక్షణాల గురించి మరియు వీటిని పరిశోధనలో ఎలా ఉపయోగించాలో (విభాగం 2.4) గురించి మరింత ప్రత్యేకంగా మాట్లాడటానికి ముందు, పెద్ద డేటా మూలాల నుండి నేర్చుకోవడానికి ప్రాథమికంగా పునరావృతమయ్యే ఆలోచన ఉంది, పునర్వ్యవస్థీకరణ గురించి సాధారణ సలహా యొక్క రెండు భాగాలు అందించడానికి. మొదటిది, నేను "దొరకలేదు" డేటా మరియు "రూపకల్పన" డేటా మధ్య ఉన్నట్లు సెట్ చేసిన విరుద్ధంగా గురించి ఆలోచించడం ఉత్సాహం ఉంటుంది. ఇది దగ్గరగా ఉంది, కానీ అది సరిగ్గా లేదు. అయినప్పటికీ, పరిశోధకుల దృక్పథంలో, పెద్ద సమాచార వనరులు "దొరికాయి," అవి ఆకాశం నుండి వస్తాయి కాదు. బదులుగా, పరిశోధకులచే "కనుగొన్న" సమాచార మూలాలు కొన్ని ప్రయోజనాల కోసం రూపొందించబడ్డాయి. ఎందుకంటే "కనుగొనబడిన" డేటా ఎవరైనా రూపొందించబడితే, మీ డేటాను సృష్టించిన వ్యక్తుల గురించి మరియు ప్రక్రియల గురించి మీరు అర్థం చేసుకోవడానికి నేను ఎల్లప్పుడూ సిఫార్సు చేస్తాను. రెండవది, మీరు డేటాను పునఃప్రారంభించేటప్పుడు, మీ సమస్య కోసం ఆదర్శ డేటాసెట్ను ఊహించడం చాలా తరచుగా ఉపయోగకరంగా ఉంటుంది మరియు మీరు ఉపయోగించే ఒక ఆదర్శ డేటాసెట్ను సరిపోల్చండి. మీరు మీ డేటాను మీరే సేకరించకపోతే, మీరు మరియు మీకు కావలసినదానికి మధ్య ముఖ్యమైన తేడాలు ఉండవచ్చు. ఈ వ్యత్యాసాలను గమనిస్తే మీకు ఏది స్పష్టం చేయగలదు మరియు మీరు కలిగి ఉన్న డేటా నుండి నేర్చుకోలేవు మరియు మీరు సేకరించే కొత్త డేటాను ఇది సూచిస్తుంది.

నా అనుభవం లో, సాంఘిక శాస్త్రవేత్తలు మరియు సమాచార శాస్త్రవేత్తలు చాలా భిన్నంగా పునఃప్రారంభించటానికి చేరుస్తారు. పరిశోధనకు రూపకల్పన చేసిన డేటాతో పనిచేయడానికి అలవాటు పడిన సామాజిక శాస్త్రవేత్తలు, దాని బలాలును విస్మరిస్తూ, repurposed డేటాతో సమస్యలను ఎత్తిచూపేవారు. మరొక వైపు, డేటా శాస్త్రవేత్తలు దాని బలహీనతలను నిర్లక్ష్యం చేస్తున్నప్పుడు repurposed డేటా ప్రయోజనాలు ఎత్తి చూపుతూ సాధారణంగా త్వరితంగా ఉంటాయి. సహజంగా, ఉత్తమ విధానం ఒక హైబ్రీడ్. అంటే, పెద్ద డేటా వనరుల యొక్క లక్షణాలు-మంచి మరియు చెడు రెండింటిని పరిశోధకులు అర్థం చేసుకోవాలి-ఆపై వారి నుండి ఎలా నేర్చుకోవాలనుకుంటున్నారో గుర్తించండి. మరియు, ఈ అధ్యాయం యొక్క మిగిలిన ప్రణాళిక. తదుపరి విభాగంలో, పెద్ద సమాచార వనరుల పది సాధారణ లక్షణాలు నేను వివరిస్తాను. అప్పుడు, క్రింది విభాగంలో, అటువంటి డేటాతో బాగా పనిచేసే మూడు పరిశోధనా విధానాలను నేను వివరిస్తాను.