2.3.1 బిగ్

పెద్ద డేటాసెట్ ముగింపు ఒక సాధనంగా ఉన్నారు; వారు తమని తాము ముగింపుగా కాదు.

పెద్ద సమాచార వనరుల అత్యంత విస్తృతంగా చర్చించబడిన లక్షణం వారు బిగ్ అని. ఉదాహరణకు, చాలా పత్రాలు, విశ్లేషించడం ద్వారా ఎంతమంది డేటాను చర్చించాలో-మరియు కొన్నిసార్లు అవిశ్వాసం-ప్రారంభమవుతాయి. ఉదాహరణకు, గూగుల్ బుక్స్ కార్పస్లో వర్డ్-వినియోగ పోకడలను అధ్యయనం చేసే సైన్స్లో ప్రచురించబడిన ఒక కాగితం (Michel et al. 2011) :

"[మా] కార్పస్లో ఇంగ్లీష్ (361 బిలియన్), ఫ్రెంచ్ (45 బిలియన్), స్పానిష్ (45 బిలియన్లు), జర్మన్ (37 బిలియన్లు), చైనీస్ (13 బిలియన్), రష్యన్ (35 బిలియన్), మరియు హిబ్రూ (2 బిలియన్). పురాతన రచనలు 1500 లలో ప్రచురించబడ్డాయి. ప్రారంభ దశాబ్దాలలో కొన్ని వందల వేల పదాలను మాత్రమే కలిగి ఉంటాయి. 1800 నాటికి, కార్పస్ సంవత్సరానికి 98 మిలియన్ పదాలకు పెరుగుతుంది; 1900 నాటికి, 1.8 బిలియన్లు; మరియు 2000 నాటికి, 11 బిలియన్. కార్పస్ ఒక మానవచే చదవబడదు. మీరు ఇంగ్లీష్ భాషా ఎంట్రీలు మాత్రమే 2000 సంవత్సరానికి మాత్రమే చదవడానికి ప్రయత్నించినట్లయితే, 200 పదాలు / నిమిషాల సమంజసమైన వేగంతో, ఆహారం లేదా నిద్రకు అంతరాయం కలిగించకుండా 80 సంవత్సరాలు పడుతుంది. అక్షరాల క్రమం మానవ జన్యువు కంటే 1000 రెట్లు ఎక్కువగా ఉంటుంది: మీరు ఒక సరళ రేఖలో వ్రాసినట్లయితే, అది చంద్రునికి మరియు 10 రెట్లు పైకి చేరుకుంటుంది. "

ఈ డేటా యొక్క స్కేల్ నిస్సందేహంగా ఆకట్టుకొనేది మరియు మేము Google బుక్ బృందం ప్రజలను ఈ డేటాను విడుదల చేసిందని అన్ని అదృష్టాలు ఉన్నాయి (వాస్తవానికి, ఈ అధ్యాయం ముగిసిన కొన్ని చర్యలు ఈ డేటాను ఉపయోగించుకుంటాయి). కాని, మీరు ఈ వంటి ఏదో చూడండి చేసినప్పుడు మీరు అడగండి ఉండాలి: అన్ని డేటా నిజంగా ఏదైనా చేస్తున్న? డేటా చంద్రునికి మాత్రమే చేరుకోగలిగితే, అదేసమయంలో మాత్రమే ఒకసారి అదే పరిశోధన చేయగలదా? డేటా ఎవెరాస్ట్ మౌంట్ లేదా ఈఫిల్ టవర్ పైభాగానికి మాత్రమే చేరుకోగలదా?

ఈ సందర్భంలో, వాస్తవానికి, వారి పరిశోధన చాలాకాలం పాటు పదాల భారీ కార్పస్ అవసరమైన కొన్ని పరిశోధనలను కలిగి ఉంది. ఉదాహరణకు, వారు అన్వేషించే ఒక విషయం వ్యాకరణ పరిణామం, ముఖ్యంగా సక్రమంగా క్రియ సంయోగం రేటులో మార్పులు. కొన్ని క్రమబద్దమైన క్రియలు చాలా అరుదుగా ఉన్నందున, కాలక్రమేణా మార్పులను గుర్తించవలసిన పెద్ద మొత్తం డేటా అవసరం. అయితే చాలా తరచుగా, పరిశోధకులు పెద్ద డేటా మూలం యొక్క పరిమాణాన్ని ఒక ముగింపుగా- 'నేను ఎంత దెబ్బతింటున్నారో చూస్తాను' అని కొంతమంది శాస్త్రీయ లక్ష్యానికి మార్గమేమీ కాదు.

నా అనుభవంలో, అరుదైన సంఘటనల అధ్యయనం అనేది మూడు ప్రత్యేక శాస్త్రీయ చివరలలో ఒకటి, ఇది పెద్ద డేటాసెట్లను ఎనేబుల్ చేస్తుంది. రెండోది భిన్నత్వం యొక్క అధ్యయనం, రాజ్ చెట్టి మరియు సహచరులు (2014) చేసిన అధ్యయనం ద్వారా యునైటెడ్ స్టేట్స్లో సామాజిక చైతన్యం మీద వివరించవచ్చు. గతంలో, అనేకమంది పరిశోధకులు తల్లిదండ్రుల మరియు పిల్లల జీవిత ఫలితాలను పోల్చడం ద్వారా సామాజిక కదలికలను అధ్యయనం చేశారు. ఈ సాహిత్యం నుండి ఒక ఖచ్చితమైన అన్వేషణ ప్రయోజనమయిన తల్లిదండ్రులు పిల్లలు ప్రయోజనకరంగా ఉంటారు, కానీ ఈ సంబంధం యొక్క బలం కాలక్రమేణా మరియు దేశాలలో (Hout and DiPrete 2006) మారుతుంది. ఇటీవల, అయితే, చీటీ మరియు సహచరులు సంయుక్త రాష్ట్రాల్లో (ఫిగర్ 2.1) ప్రాంతాల్లో అంతర్గతంగా చలనశీలత లో వైవిధ్యమైన అంచనాను అంచనా వేయడానికి 40 మిలియన్ల మందికి పన్ను రికార్డులను ఉపయోగించుకున్నారు. ఉదాహరణకు, శాన్ జోస్, కాలిఫోర్నియాలో ఒక బిడ్డకు దిగువ క్విన్టైల్లో ఒక కుటుంబం నుంచి జాతీయ ఆదాయ పంపిణీ యొక్క టాప్ క్వింటైల్ చేరుకున్న సంభావ్యత, కాలిఫోర్నియాలోని శాన్ జోస్లో 13% మాత్రమే ఉంటుంది, కానీ షార్లెట్, నార్త్ కరోలినాలో కేవలం 4% మాత్రమే ఉంది. మీరు ఒక క్షణానికి ఫిగర్ 2.1 ను చూస్తే, ఇతరుల కన్నా కొన్ని ప్రదేశాల్లో అంతర్జాత చైతన్యం ఎక్కువగా ఉన్నందువల్ల మీరు ఆశ్చర్యపోతారు. చెట్టి మరియు సహోద్యోగులు సరిగ్గా అదే ప్రశ్న కలిగి ఉన్నారు, మరియు అధిక కదలిక ప్రాంతాలలో తక్కువ నివాస వేర్పాటు, తక్కువ ఆదాయ అసమానత, మంచి ప్రాధమిక పాఠశాలలు, ఎక్కువ సాంఘిక మూలధనం మరియు ఎక్కువ కుటుంబ స్థిరత్వం ఉన్నాయి. అయితే, ఈ పరస్పర సంబంధాలు మాత్రం అధిక కదలిక కావని చూపించవు, కానీ వారు తదుపరి పనిలో చేట్టి మరియు సహచరులు చేసిన సరిగ్గా అదే పనిలో అన్వేషించగలిగే సాధ్యమైన యంత్రాంగాలను సూచిస్తారు. ఈ ప్రాజెక్టులో డేటా యొక్క పరిమాణం నిజంగా ఎలా ముఖ్యమైనదో గమనించండి. చెటి మరియు సహోద్యోగులు 40 మిలియన్ల కంటే 40 వేల మందికి పన్ను రికార్డులను ఉపయోగించినట్లయితే, వారు ప్రాంతీయ వైవిధ్యతను అంచనా వేయలేకపోతారు మరియు ఈ వైవిధ్యాన్ని సృష్టించే మెకానిజాలను గుర్తించడానికి ప్రయత్నించిన తరువాత వారు ఎన్నటికీ చేయలేరు.

మూర్తి 2.1: దిగువ 20% (చెటి మరియు ఇతరులు 2014) లో తల్లిదండ్రులకు ఇచ్చిన ఆదాయం పంపిణీలో 20% వరకు పిల్లల అవకాశాలు అంచనా వేయడం. ప్రాంతీయ స్థాయి అంచనాలు, ఇది వైవిధ్యత చూపే, ఒక జాతీయ స్థాయి అంచనా నుండి ఉత్పన్నమయ్యే ఆసక్తికరమైన మరియు ముఖ్యమైన ప్రశ్నలకు సహజంగా దారి తీస్తుంది. ఈ ప్రాంతీయ-స్థాయి అంచనాలు కొంతవరకూ సాధ్యపడింది, ఎందుకంటే పరిశోధకులు పెద్ద పెద్ద డేటాను ఉపయోగిస్తున్నారు: 40 మిలియన్ల మంది పన్ను రికార్డులు. Http://www.centality-of-opportunity.org/ వద్ద అందుబాటులో ఉన్న డేటా నుండి రూపొందించబడింది.

మూర్తి 2.1: దిగువ 20% (Chetty et al. 2014) లో తల్లిదండ్రులకు ఇచ్చిన ఆదాయం పంపిణీలో 20% వరకు పిల్లల అవకాశాలు అంచనా (Chetty et al. 2014) . ప్రాంతీయ స్థాయి అంచనాలు, ఇది వైవిధ్యత చూపే, ఒక జాతీయ స్థాయి అంచనా నుండి ఉత్పన్నమయ్యే ఆసక్తికరమైన మరియు ముఖ్యమైన ప్రశ్నలకు సహజంగా దారి తీస్తుంది. ఈ ప్రాంతీయ-స్థాయి అంచనాలు కొంతవరకూ సాధ్యపడింది, ఎందుకంటే పరిశోధకులు పెద్ద పెద్ద డేటాను ఉపయోగిస్తున్నారు: 40 మిలియన్ల మంది పన్ను రికార్డులు. Http://www.centality-of-opportunity.org/ వద్ద అందుబాటులో ఉన్న డేటా నుండి రూపొందించబడింది.

అంతిమంగా, అరుదైన సంఘటనలను అధ్యయనం చేయటం మరియు భిన్నత్వం అధ్యయనం చేయటంతోపాటు, పెద్ద డేటాసెట్ లు కూడా చిన్న తేడాలు గుర్తించటానికి పరిశోధకులను చేస్తాయి. వాస్తవానికి, పరిశ్రమలో పెద్ద డేటాపై దృష్టి సారించిన ఈ చిన్న వ్యత్యాసాలు ఏమిటంటే: ఒక ప్రకటనలో 1% మరియు 1.1% క్లిక్-రేట్లు మధ్య వ్యత్యాసాన్ని విశ్వసనీయంగా గుర్తించడం వలన మిలియన్ల డాలర్లు అదనపు ఆదాయంలోకి అనువదించవచ్చు. ఏదేమైనప్పటికీ, కొన్ని శాస్త్రీయ అమరికలలో, అవి సంఖ్యాపరంగా ముఖ్యమైనవి అయినప్పటికీ (Prentice and Miller 1992) చిన్న తేడాలు ప్రత్యేకమైనవి కావు. కానీ, కొన్ని విధాన అమరికలలో, మొత్తంలో వీక్షించినప్పుడు అవి ముఖ్యమైనవి కావచ్చు. ఉదాహరణకు, రెండు పబ్లిక్ హెల్త్ జోక్యం మరియు మరొకదాని కంటే కొంచం ప్రభావవంతంగా ఉంటే, మరింత సమర్థవంతమైన జోక్యం తీసుకోవడం ద్వారా వేలకొద్దీ అదనపు జీవితాలను సేవ్ చేయవచ్చు.

సరిగ్గా ఉపయోగించినప్పుడు బిగ్నస్ సాధారణంగా మంచి ఆస్తి అయినప్పటికీ, కొన్నిసార్లు ఇది సంభావ్య లోపంకి దారితీస్తుందని నేను గమనించాను. కొన్ని కారణాల వలన, బిగ్నస్ వారి డేటా ఎలా సృష్టించారో విస్మరించటానికి పరిశోధకులను నడిపిస్తుంది. Bigness యాదృచ్ఛిక లోపం గురించి ఆందోళన అవసరం తగ్గిస్తుంది అయితే, ఇది నిజానికి వ్యవస్థాత్మక లోపాలు గురించి ఆందోళన అవసరాన్ని పెంచుతుంది , నేను డేటా ఎలా సృష్టించాలో లో పక్షపాతాలు నుండి ఉత్పన్నమయ్యే ఆ వర్ణించేందుకు లోపాలు రకాల. ఉదాహరణకు, ఈ అధ్యాయంలో నేను తరువాత వివరించే ఒక ప్రాజెక్ట్ లో, 2001 సెప్టెంబర్ 11 న పరిశోధకులు ఉపయోగించిన సందేశాలను తీవ్రవాద దాడికి (Back, Küfner, and Egloff 2010) అధిక-రిజల్యూషన్ భావోద్వేగ (Back, Küfner, and Egloff 2010) . పరిశోధకులు పెద్ద సంఖ్యలో సందేశాలను కలిగి ఉన్నందున, వారు గమనించిన విధానాలు-రోజులో పెరుగుతున్న కోపం-అనేది యాదృచ్ఛిక వ్యత్యాసాల ద్వారా వివరించగలవా అనే విషయం గురించి నిజంగా ఆందోళన చెందవలసిన అవసరం లేదు. చాలా డేటా మరియు నమూనా అన్ని గణాంక గణాంక పరీక్షలు ఈ నిజమైన నమూనా అని సూచించారు చాలా స్పష్టంగా ఉంది. కానీ, ఈ గణాంక పరీక్షలను ఎలా సృష్టించాలో తెలియలేదు. వాస్తవానికి, అనేక నమూనాలు రోజుకు మరింత అర్థరహిత సందేశాలను సృష్టించిన ఒక బాట్కు ఆపాదించబడ్డాయి. ఈ ఒక బాట్ను తొలగించడం కాగితంలోని కీలకమైన ఫలితాలను పూర్తిగా నాశనం చేసింది (Pury 2011; Back, Küfner, and Egloff 2011) . సాధారణంగా, వ్యవస్థాగత లోపం గురించి ఆలోచించని పరిశోధకులు, ఆటోమేటెడ్ బాట్ చేత అర్ధం లేని సందేశాల భావోద్వేగ కంటెంట్ వంటి అసంపూర్తిగా అంచనా వేయడానికి వారి భారీ డేటాసెట్లను ఉపయోగించుకునే ప్రమాదాన్ని ఎదుర్కొంటారు.

ముగింపులో, పెద్ద డేటాసెట్లు తమలో తాము అంతం కాదు, కానీ అవి అరుదైన సంఘటనల అధ్యయనం, భిన్నత్వం యొక్క అంచనా మరియు చిన్న తేడాలు గుర్తించడం వంటి కొన్ని రకాల పరిశోధనలు చేయగలవు. బిగ్ డేటాసెట్ లు కొంతమంది పరిశోధకులు వారి డేటా ఎలా సృష్టించారనే విషయాన్ని విస్మరించడానికి దారి తీస్తుంది, ఇది ఒక అరుదైన పరిమాణాన్ని అంచనా వేయడానికి దారితీస్తుంది.