తదుపరి చదవటానికి ఏమి

ఈ అనువాదం కంప్యూటర్ ద్వారా సృష్టించబడింది. ×

తదుపరి చదవటానికి ఏమి

పరిచయము (విభాగం 2.1)

ఈ అధ్యాయంలో చేర్చని ఒక రకమైన జాతి ఎథ్నోగ్రఫీ. డిజిటల్ ప్రదేశాలలో ఎథ్నోగ్రఫీపై మరింత సమాచారం కోసం, Boellstorff et al. (2012) చూడండి Boellstorff et al. (2012) , మరియు మిశ్రమ డిజిటల్ మరియు భౌతిక ప్రదేశాల్లోని ఎథ్నోగ్రఫీ కోసం మరిన్ని, Lane (2016) .

బిగ్ డేటా (విభాగం 2.2)

"పెద్ద డేటా" యొక్క ఏక ఏకాభిప్రాయం నిర్వచనం లేదు, కానీ అనేక నిర్వచనాలు "3 Vs" పై దృష్టి పెట్టాయి: వాల్యూమ్, Japec et al. (2015) మరియు వేగం (ఉదా., Japec et al. (2015) ). De Mauro et al. (2015) చూడండి De Mauro et al. (2015) నిర్వచనాల సమీక్ష కోసం.

పెద్ద డేటా విభాగంలో ప్రభుత్వ పరిపాలన డేటాను చేర్చడం ఒక బిట్ అసాధారణమైనది, అయినప్పటికీ ఇతరులు కూడా ఈ కేసును చేశారు, వీటిలో Legewie (2015) , Connelly et al. (2016) , మరియు Einav and Levin (2014) . పరిశోధన కోసం ప్రభుత్వ పాలనా డేటా విలువ గురించి మరింత సమాచారం కోసం, Card et al. (2010) చూడండి Card et al. (2010) , Adminstrative Data Taskforce (2012) , మరియు Grusky, Smeeding, and Snipp (2015) .

ప్రభుత్వ గణాంక వ్యవస్థలో, ప్రత్యేకంగా US సెన్సస్ బ్యూరోలో ఉన్న పరిపాలనా పరిశోధన దృష్ట్యా, Jarmin and O'Hara (2016) . స్టాటిస్టిక్స్ స్వీడన్లో నిర్వాహక రికార్డుల పరిశోధన యొక్క పుస్తకం-పొడవు చికిత్స కోసం, Wallgren and Wallgren (2007) .

అధ్యాయంలో, నేను క్లుప్తంగా సాంప్రదాయిక సర్వేని జనరల్ సోషల్ సర్వే (GSS) వంటి సోషల్ మీడియా సమాచార మూలంతో ట్విట్టర్ లాగా పోల్చాను. సంప్రదాయ సర్వేలు మరియు సోషల్ మీడియా Schober et al. (2016) మధ్య సమగ్రమైన మరియు జాగ్రత్తగా పోలిక కోసం, Schober et al. (2016) చూడండి Schober et al. (2016) .

పెద్ద డేటా యొక్క సాధారణ లక్షణాలు (విభాగం 2.3)

విభిన్న రచయితలు వివిధ రకాలుగా పెద్ద డేటా యొక్క ఈ 10 లక్షణాలు వర్ణించబడ్డాయి. ఈ అంశాలపై నా ఆలోచనను ప్రభావితం చేస్తూ రాయడం Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , మరియు Goldstone and Lupyan (2016) .

ఈ అధ్యాయం అంతటా, నేను ఉపయోగించే పదం డిజిటల్ జాడలు , నేను చాలా తటస్థంగా భావిస్తాను. డిజిటల్ జాడల కోసం మరొక ప్రసిద్ధ పదం డిజిటల్ పాదముద్రలు (Golder and Macy 2014) , కానీ హాల్ అబెల్సన్, కెన్ లడీన్, మరియు హ్యారీ లెవిస్ (2008) , మరింత ఖచ్చితమైన పదం బహుశా డిజిటల్ వేలిముద్రలు . మీరు పాదముద్రలను సృష్టించినప్పుడు, మీరు ఏమి జరుగుతుందో తెలుసుకుంటారు మరియు మీ పాదముద్రలు సాధారణంగా మీకు వ్యక్తిగతంగా గుర్తించబడవు. మీ డిజిటల్ జాడలకు ఇది నిజం కాదు. వాస్తవానికి, మీరు చాలా తక్కువ జ్ఞానం కలిగి ఉన్న అన్ని సమయాలను మీరు వదిలివేస్తున్నారు. మరియు, ఈ జాడలు వాటిపై మీ పేరును కలిగి లేనప్పటికీ, వారు తరచుగా మీతో తిరిగి లింక్ చేయబడతారు. ఇతర మాటలలో, వారు మరింత వేలిముద్రలు వంటివి: అదృశ్య మరియు వ్యక్తిగతంగా గుర్తించడం.

బిగ్ (విభాగం 2.3.1)

గణాంక పరీక్షలు సమస్యాత్మకంగా ఎందుకు పెద్ద డేటాస్యాట్లను అందిస్తాయి, M. Lin, Lucas, and Shmueli (2013) మరియు McFarland and McFarland (2015) . ఈ విషయాలు గణాంక ప్రాముఖ్యత కంటే పరిశోధకులను ప్రాముఖ్యమైన ప్రాముఖ్యత మీద దృష్టి పెట్టాలి.

రాజ్ చెట్టి మరియు సహోద్యోగులు పన్నుల రికార్డులకు ఎలా ప్రాప్తించారో, Mervis (2014) .

పెద్ద డాటాసెట్ లు ఒకే కంప్యూటర్ యొక్క సామర్థ్యాలకు మించి ఉన్న గణన సమస్యలను సృష్టించగలవు. కాబట్టి, పెద్ద డేటాసెట్లపై గణనలను తయారుచేసే పరిశోధకులు తరచూ అనేక కంప్యూటర్లపై పనిని విస్తరించారు, ఈ ప్రక్రియ కొన్నిసార్లు సమాంతర ప్రోగ్రామింగ్ అని పిలువబడుతుంది. సమాంతర కార్యక్రమాలకు ఒక పరిచయానికి, ముఖ్యంగా హడూప్ అని పిలవబడే భాష, Vo and Silvia (2016) .

ఎల్లప్పుడు-న (సెక్షన్ 2.3.2)

ఎప్పటికప్పుడు డేటాను పరిశీలిస్తే, మీరు ఖచ్చితమైన వ్యక్తులను కాలక్రమేణా పోల్చారో లేదో లేదా మీరు కొంతమంది మారుతున్న వ్యక్తుల సమూహాన్ని పోల్చారో లేదో పరిశీలించటం ముఖ్యం; ఉదాహరణ కోసం చూడండి, Diaz et al. (2016) .

Nonreactive (విభాగం ¿సెకను: రియాక్టివ్ కాని? )

Nonreactive చర్యలపై ఒక క్లాసిక్ పుస్తకం Webb et al. (1966) . ఆ పుస్తకంలో ఉన్న ఉదాహరణలు డిజిటల్ యుగానికి ముందు ఉన్నాయి, కానీ అవి ఇప్పటికీ ప్రకాశవంతమయ్యాయి. సామూహిక నిఘా ఉనికిని కలిగి ఉన్న కారణంగా వారి ప్రవర్తనను మార్చుకునే వ్యక్తుల కోసం, Penney (2016) మరియు Brayne (2014) .

పరిశోధకులు డిమాండ్ ప్రభావాలను (Orne 1962; Zizzo 2010) మరియు హాథోర్న్ ఎఫెక్ట్ (Adair 1984; Levitt and List 2011) రియాక్టివిటీ దగ్గరి సంబంధం కలిగి ఉంది.

అసంపూర్ణమైన (సెక్షన్ 2.3.4)

Dunn (1946) మరియు Fellegi and Sunter (1969) (చారిత్రక) మరియు Larsen and Winkler (2014) (ఆధునిక) లను చూడండి. ఇదే విధమైన విధానాలు కంప్యూటర్ సైన్స్లో పేర్లు, డేటా డిడ్యూప్సిపేషన్, ఉదాహరణ గుర్తింపు, పేరు సరిపోలిక, నకిలీ గుర్తింపు మరియు నకిలీ రికార్డు గుర్తింపు (Elmagarmid, Ipeirotis, and Verykios 2007) . వ్యక్తిగతంగా గుర్తించే సమాచారం ప్రసారం అవసరం లేని లింక్ రికార్డు కోసం గోప్యతా సంరక్షించే విధానాలు కూడా ఉన్నాయి (Schnell 2013) . తమ రికార్డులను ఓటింగ్ ప్రవర్తనకు లింక్ చేసే ప్రక్రియను ఫేస్బుక్ అభివృద్ధి చేసింది; ఇది నేను అధ్యాయంలో 4 (Bond et al. 2012; Jones et al. 2013) గురించి మీకు చెప్పే ఒక ప్రయోగాన్ని విశ్లేషించడానికి జరిగింది.

చెల్లుబాటు అయ్యే నిర్మాణానికి Shadish, Cook, and Campbell (2001) యొక్క 3 వ అధ్యాయం చూడండి.

యాక్సెస్ చేయలేని (విభాగం 2.3.5)

AOL శోధన లాగ్ ఓవర్లో మరిన్నింటి కోసం, Ohm (2010) . నేను ప్రయోగాలు వివరిస్తున్నప్పుడు అధ్యాయం 4 లో కంపెనీలు మరియు ప్రభుత్వాలతో భాగస్వామ్యం గురించి సలహా ఇస్తాను. యాక్సెసబుల్ డేటాపై ఆధారపడిన పరిశోధన గురించి అనేకమంది రచయితలు వ్యక్తం చేశారు, Huberman (2012) మరియు boyd and Crawford (2012) .

విశ్వవిద్యాలయ పరిశోధకులు సమాచారాన్ని యాక్సెస్ సాధించటం కోసం ఒక మంచి మార్గం ఒక ఇంటర్న్ లేదా సందర్శించడం పరిశోధకుడు ఒక సంస్థ వద్ద పని ఉంది. డేటా యాక్సెస్ ఎనేబుల్ పాటు, ఈ ప్రక్రియ కూడా పరిశోధకుడు ఎలా విశ్లేషణకు ముఖ్యం ఇది, డేటా రూపొందించారు గురించి మరింత తెలుసుకోవడానికి సహాయపడుతుంది.

ప్రభుత్వ డేటా పొందడం పరంగా, Mervis (2014) రాజ్ చెట్టి మరియు సహచరులు సాంఘిక చలనశీలతపై వారి పరిశోధనలో ఉపయోగించిన పన్ను రికార్డులకు ఎలా ప్రాప్తి చేశారో చర్చించారు.

ప్రతినిధి కానివారు (క్షణ: ప్రతినిధి)

Kruskal and Mosteller (1979a) Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979b) Kruskal and Mosteller (1979c) , Kruskal and Mosteller (1979c) , మరియు Kruskal and Mosteller (1979c) Kruskal and Mosteller (1980) .

మంచు పని నా సారాంశాలు మరియు డాల్ మరియు హిల్ యొక్క పని క్లుప్తంగా ఉన్నాయి. కలరా పై మంచు పని మీద, Freedman (1991) . బ్రిటీష్ డాక్టర్స్ స్టడీలో Doll et al. (2004) చూడండి Doll et al. (2004) మరియు Keating (2014) .

డాల్ మరియు హిల్ మహిళా వైద్యులు మరియు 35 సంవత్సరాలలో వైద్యులు నుండి సమాచారాన్ని సేకరించినప్పటికీ, వారు ఉద్దేశపూర్వకంగా వారి మొదటి విశ్లేషణలో ఈ సమాచారాన్ని ఉపయోగించలేదని చాలామంది పరిశోధకులు ఆశ్చర్యపోతారు. వారు వాదించారు: "ఊపిరితిత్తుల క్యాన్సర్ మహిళలు మరియు 35 కంటే తక్కువ వయస్సులో సాపేక్షంగా అరుదుగా ఉన్నందున, ఉపయోగపడే గణాంకాలు రాబోయే సంవత్సరాల్లో ఈ సమూహాలలో పొందటానికి అవకాశం లేదు. ఈ ప్రాధమిక నివేదికలో మనము 35 Rothman, Gallacher, and Hatch (2013) పైబడిన పురుషులకు మా దృష్టిని పరిమితం చేసాము. " Rothman, Gallacher, and Hatch (2013) , రెచ్చగొట్టే శీర్షిక" ఎందుకు ప్రాతినిధ్యతని తప్పించకూడదు "అనే దానిపై విలువైన వాదన ఉద్దేశ్యపూర్వకంగా nonrepresentative డేటా సృష్టించడం.

మొత్తం జనాభా గురించి ప్రకటనలు చేయాలనుకునే పరిశోధకులకు మరియు ప్రభుత్వాలకు ఒక అభ్యంతరం లేదు. ఇది వారి వినియోగదారులపై దృష్టి సారించే కంపెనీల కోసం ఇది తక్కువగా ఉంటుంది. నెదర్లాండ్స్ గణాంక సమాచారం ఎలా పెద్దది కాదు అని బిజినెస్ పెద్ద డేటా యొక్క Buelens et al. (2014) యొక్క సమస్య, చూడండి Buelens et al. (2014) .

పెద్ద సమాచార వనరుల ప్రతినిధుల స్వభావం గురించి ఆందోళన వ్యక్తం చేసిన పరిశోధకులకు ఉదాహరణలు, boyd and Crawford (2012) , K. Lewis (2015b) Hargittai (2015) K. Lewis (2015b) , మరియు K. Lewis (2015b) Hargittai (2015) .

సాంఘిక సర్వేలు మరియు ఎపిడెమియోలాజికల్ పరిశోధనల యొక్క మరింత వివరణాత్మక పోలిక కోసం, Keiding and Louis (2016) .

ఓటర్లను Jungherr (2013) , ప్రత్యేకించి 2009 జర్మనీ ఎన్నికల సందర్భంగా, Jungherr (2013) మరియు Jungherr (2015) Jungherr (2013) చూడడానికి ట్విటర్ ను ఉపయోగించుకోవటానికి ప్రయత్నాలు చేయటానికి మరింత ప్రయత్నించుటకు. Tumasjan et al. (2010) పని తరువాత Tumasjan et al. (2010) ప్రపంచ వ్యాప్తంగా పరిశోధకులు అభిమానుల పద్ధతులను ఉపయోగించారు-పార్టీల సానుకూల మరియు ప్రతికూల భావాలను గుర్తించడానికి సెంటిమెంట్ విశ్లేషణను ఉపయోగించడం వంటివి (Gayo-Avello 2013; Jungherr 2015, chap. 7.) రకాలైన ఎన్నికలను అంచనా వేయడానికి ట్విటర్ డేటా సామర్థ్యాన్ని మెరుగుపరిచేందుకు (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Huberty (2015) ఎన్నికలను అంచనా వేసేందుకు ఈ ప్రయత్నాల ఫలితాలను సంగ్రహించారు:

"సోషల్ మీడియాపై ఆధారపడిన ప్రసిద్ధమైన అన్ని సూచన విధానాలు విఫలమయ్యాయి, ఇవి నిజమైన ముందుకు చూసే ఎన్నికల సూచనల యొక్క డిమాండ్లకు లోనయ్యాయి. ఈ వైఫల్యాలు సిద్ధాంతపరమైన లేదా అల్గోరిథమిక్ ఇబ్బందులకు బదులుగా, సోషల్ మీడియా యొక్క ప్రాధమిక లక్షణాలు కారణంగా కనిపిస్తాయి. సంక్షిప్తంగా, సోషల్ మీడియా లేదు, మరియు బహుశా ఎప్పుడూ, ఓటు స్థిరమైన, నిష్పాక్షికమైన, ప్రతినిధి చిత్రం అందించే; మరియు సోషల్ మీడియా యొక్క సౌలభ్యం నమూనాలు ఈ సమస్యలను పరిష్కరించడానికి తగినంత డేటాను కలిగి లేవు. "

అధ్యాయంలో 3, నేను చాలా వివరంగా మాదిరి మరియు అంచనాను వివరించాను. డేటా నిస్సందేహంగా లేనప్పటికీ, కొన్ని పరిస్థితులలో, వారు మంచి అంచనాలను ఉత్పత్తి చేయటానికి వీలు కలిగిస్తారు.

కూరుకుపోయే (విభాగం ¿సెకను: డ్రిఫ్టింగ్? )

సిస్టమ్ డ్రిఫ్ట్ వెలుపల నుండి చూడటానికి చాలా కష్టంగా ఉంది. ఏదేమైనా, మూవీల్న్స్ ప్రాజెక్ట్ (అధ్యాయంలో 4 లో మరింత చర్చించబడింది) ఒక విద్యాసంబంధ పరిశోధన బృందం ద్వారా 15 కన్నా ఎక్కువ సంవత్సరాలు అమలు చేయబడింది. అందువల్ల, వ్యవస్థ కాలక్రమేణా అభివృద్ధి చెందిందని మరియు ఎలా విశ్లేషణపై ప్రభావాన్ని చూపుతుంది (Harper and Konstan 2015) గురించి సమాచారాన్ని డాక్యుమెంట్ చేసి, పంచుకోగలిగారు.

Liu, Kliman-Silver, and Mislove (2014) మరియు Tufekci (2014) : ట్విట్టర్లో అనేకమంది పరిశోధకులు దృష్టి పెట్టారు.

జనాభా ప్రవాహంతో వ్యవహరించడానికి ఒక విధానం వినియోగదారుల సమూహాన్ని సృష్టించడం, ఇది పరిశోధకులు ఒకే కాలంలోని ఒకే వ్యక్తులను అధ్యయనం చేయడానికి అనుమతిస్తుంది, Diaz et al. (2016) చూడండి Diaz et al. (2016) .

అల్గారిథమిక్ గందరగోళం (విభాగం ¿సెకను: algorthmically-confounded? )

జోన్ క్లెయిన్బెర్గ్ వాడినప్పుడు "అల్గారిథమిక్ కంగారుపడిన" అనే పదాన్ని మొదట నేను విన్నాను, కాని దురదృష్టవశాత్తు నేను మాట్లాడినప్పుడు లేదా ఎప్పుడు ఎక్కడ గుర్తు పెట్టుకోలేదు. ప్రింట్లో నేను చూసిన మొదటిసారి Anderson et al. (2015) , డేటింగ్ సైట్లు ఉపయోగించే అల్గోరిథంలు సామాజిక ప్రాధాన్యతలను అధ్యయనం చేయడానికి ఈ వెబ్సైట్ల నుండి డేటాను ఉపయోగించడానికి పరిశోధకుల సామర్థ్యాన్ని క్లిష్టతరం చేస్తాయనే విషయంలో ఒక ఆసక్తికరమైన చర్చ. Anderson et al. (2014) K. Lewis (2015a) ప్రతిస్పందనగా K. Lewis (2015a) ఈ ఆందోళనను పెంచింది Anderson et al. (2014) .

ఫేస్బుక్కి అదనంగా, వినియోగదారులు త్రికోడ్ మూసివేత ఆలోచన ఆధారంగా అనుసరించడానికి ప్రజలను సిఫారసు చేస్తారు; Su, Sharma, and Goel (2016) . కాబట్టి ట్విట్టర్లో ట్రైడాక్ మూసివేత స్థాయి ట్రియాడిక్ మూసివేత వైపు కొన్ని మానవ ధోరణి మరియు ముదురు మూసివేతను ప్రోత్సహించడానికి కొన్ని అల్గారిథమిక్ ధోరణుల కలయిక.

కొన్ని సాంఘిక శాస్త్ర సిద్ధాంతాలు "ఇంజన్లు కెమెరాలు కావు" (అనగా అవి వర్ణించేదాని కంటే ప్రపంచాన్ని ఆకృతం చేస్తాయి) - సీ Mackenzie (2008) ప్రత్యేకమైన పనితీరును మరింత ప్రత్యేకంగా చెప్పవచ్చు.

డర్టీ (సెక్షన్ 2.3.9)

ప్రభుత్వ గణాంక సంస్థలు గణాంక డేటా ఎడిటింగ్ను శుభ్రపరిస్తాయి. De Waal, Puts, and Daas (2014) గణాంక డేటా ఎడిటింగ్ పద్ధతులను సర్వే డేటా కోసం అభివృద్ధి చేశారు మరియు అవి పెద్ద డేటా మూలాలకు వర్తించే పరిధిని పరిశీలించడం మరియు Puts, Daas, and Waal (2015) మరింత సాధారణ ప్రేక్షకులు.

సాంఘిక బాట్లను గురించి, Ferrara et al. (2016) చూడండి Ferrara et al. (2016) . ట్విట్టర్లో స్పామ్ కనుగొనడంలో కొన్ని అధ్యయనాలకు సంబంధించిన అధ్యయనాలకు, Clark et al. (2016) చూడండి Clark et al. (2016) మరియు Chu et al. (2012) . చివరగా, Subrahmanian et al. (2016) DARPA ట్విటర్ బోట్ ఛాలెంజ్, ట్విట్టర్ లో బాట్లను గుర్తించే విధానాలను పోల్చడానికి రూపొందించిన ఒక సామూహిక సహకారం యొక్క ఫలితాలను వివరిస్తుంది.

సున్నితమైన (విభాగం 2.3.10)

Ohm (2015) సున్నితమైన సమాచారం యొక్క ఆలోచనపై పరిశోధనను ముందు సమీక్షించి బహుళ-కారక పరీక్షను అందిస్తుంది. అతను ప్రతిపాదించిన నాలుగు కారకాలు హాని యొక్క పరిణామం, హాని యొక్క సంభావ్యత, రహస్య సంబంధ ఉనికి, మరియు ప్రమాదం మెజారిటీ ఆందోళనలను ప్రతిబింబిస్తున్నాయని సూచిస్తుంది.

లెక్కింపు విషయాలు (సెక్షన్ 2.4.1)

న్యూయార్క్లో Camerer et al. (1997) ఫారెర్ యొక్క అధ్యయనం Camerer et al. (1997) ప్రారంభ అధ్యయనంలో ఉంది Camerer et al. (1997) పేపర్ ట్రిప్ షీట్స్ యొక్క మూడు వేర్వేరు సౌలభ్య నమూనాలను ఉపయోగించింది. ఈ మునుపటి అధ్యయనం డ్రైవర్లు లక్ష్యాన్ని సంపాదించేవారు అనిపించింది: వారి వేతనాలు ఎక్కువ ఉన్న రోజులలో తక్కువ పని చేస్తాయి.

తదుపరి పనిలో, కింగ్ మరియు సహచరులు చైనాలో (King, Pan, and Roberts 2014, [@king_how_2016] ) ఆన్లైన్ సెన్సార్షిప్ను మరింత అన్వేషించారు. చైనాలో ఆన్లైన్ సెన్సార్షిప్ కొలిచే ఒక సంబంధిత విధానం కోసం, Bamman, O'Connor, and Smith (2012) . 11 మిలియన్ పోస్టుల సెంటిమెంట్ని అంచనా వేయడానికి King, Pan, and Roberts (2013) లో ఉపయోగించిన గణాంక పద్ధతులకు మరింత ఎక్కువగా Hopkins and King (2010) . పర్యవేక్షణలో మరింత తెలుసుకోవడానికి, James et al. (2013) చూడండి James et al. (2013) (తక్కువ సాంకేతికత) మరియు Hastie, Tibshirani, and Friedman (2009) (మరింత సాంకేతికమైనది).

ఫోర్కాస్టింగ్ మరియు ఇప్పుడుక్యాస్టింగ్ (సెక్షన్ 2.4.2)

పారిశ్రామిక డేటా సైన్స్ (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) యొక్క పెద్ద భాగం ఫోర్కాస్టింగ్. సాంఘిక పరిశోధకుల ద్వారా సాధారణంగా జరిగే ఒక రకమైన అంచనా, జనాభా అంచనా; ఉదాహరణకు, Raftery et al. (2012) .

గూగుల్ ఫ్లూ ట్రెండ్స్ ఇప్పుడు ఇన్కాస్ట్ ఇన్ఫ్లుఎంజా ప్రాబల్యతకు శోధన డేటాను ఉపయోగించిన మొట్టమొదటి ప్రాజెక్ట్ కాదు. వాస్తవానికి, యునైటెడ్ స్టేట్స్ (Polgreen et al. 2008; Ginsberg et al. 2009) మరియు స్వీడన్ (Hulth, Rydevik, and Linde 2009) పరిశోధకులు కొన్ని శోధన పదాలు (ఉదా., "ఫ్లూ") జాతీయ ప్రజా ఆరోగ్య పర్యవేక్షణ డేటా విడుదలకు ముందు. తరువాతి చాలా, అనేక ఇతర ప్రాజెక్టులు వ్యాధి నిఘా గుర్తింపును కోసం డిజిటల్ ట్రేస్ డేటా ఉపయోగించడానికి ప్రయత్నించారు; Althouse et al. (2015) చూడండి Althouse et al. (2015) సమీక్ష కోసం.

ఆరోగ్య ఫలితాలను అంచనా వేయడానికి డిజిటల్ ట్రేస్ డేటాను ఉపయోగించడంతో పాటు, ఎన్నికల ఫలితాలను అంచనా వేయడానికి Twitter డేటాను ఉపయోగించి భారీ మొత్తంలో పని ఉంది; Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (అధ్యాయం 7), మరియు Huberty (2015) . స్థూల జాతీయోత్పత్తి (జిడిపి) వంటి ఆర్థిక సూచికల యొక్క నోస్కాస్టింగ్ కేంద్ర బ్యాంకులు కూడా సాధారణం, Bańbura et al. (2013) చూడండి Bańbura et al. (2013) . పట్టిక 2.8 ప్రపంచంలో కొన్ని రకమైన కార్యక్రమాలను అంచనా వేయడానికి కొన్ని రకాల డిజిటల్ ట్రేస్లను ఉపయోగించే అధ్యయనాల యొక్క కొన్ని ఉదాహరణలు ఉన్నాయి.

టేబుల్ 2.8: కొన్ని సంఘటనలను అంచనా వేయడానికి ఒక బిగ్ డేటా మూలాన్ని ఉపయోగించుకునే స్టడీస్
డిజిటల్ ట్రేస్	ఫలితం	citation
ట్విట్టర్	యుఎస్ లోని బాక్స్ ఆఫీస్ ఆదాయం	Asur and Huberman (2010)
లాగ్లను శోధించండి	అమెరికాలో సినిమాలు, సంగీతం, పుస్తకాలు, మరియు వీడియోల అమ్మకాలు	Goel et al. (2010)
ట్విట్టర్	డౌ జోన్స్ ఇండస్ట్రియల్ యావరేజ్ (US స్టాక్ మార్కెట్)	Bollen, Mao, and Zeng (2011)
సోషల్ మీడియా మరియు శోధన లాగ్లు	యునైటెడ్ స్టేట్స్, యునైటెడ్ కింగ్డమ్, కెనడా మరియు చైనాలో పెట్టుబడిదారుల సెంటిమెంట్ మరియు స్టాక్ మార్కెట్ల సర్వేలు	Mao et al. (2015)
లాగ్లను శోధించండి	సింగపూర్ మరియు బ్యాంకాక్లలో డెంగ్యూ ఫీవర్ యొక్క వ్యాప్తి	Althouse, Ng, and Cummings (2011)

చివరగా, జోన్ క్లెయిన్బెర్గ్ మరియు సహచరులు (2015) అంచనాలు రెండు వేర్వేరు వర్గాల్లోకి వస్తాయి మరియు సాంఘిక శాస్త్రవేత్తలు ఒకదానిపై దృష్టి సారించాలని మరియు మరొకరిని విస్మరించాలని సూచించారు. ఒక విధానం తయారీదారుని ఊహించు, నేను ఆమె అన్నాను పిలుస్తాను, ఎవరు కరువును ఎదుర్కొంటున్నారు మరియు వర్షం పడే అవకాశాన్ని పెంచడానికి వర్షపు నృత్యం చేయటానికి షమాన్ను తీసుకోవాలని నిర్ణయించుకోవాలి. ఇంకొక విధాన నిర్ణేత, నేను ఆమె బెట్టీని పిలుస్తాను, ఇంటికి తడిగా ఉండకుండా నివారించడానికి ఒక గొడుగు తీసుకోవాలో లేదో నిర్ణయించుకోవాలి. అన్నా మరియు బెట్టీలు వాతావరణాన్ని అర్థం చేసుకుంటే మంచి నిర్ణయం తీసుకుంటారు, కాని వారు వివిధ విషయాలను తెలుసుకోవాలి. అన్నా వర్షం డ్యాన్స్ వర్షం కారణమా అని అర్థం చేసుకోవాలి. బెట్టీ, మరోవైపు, కారణాన్ని గురించి ఏదైనా అర్థం చేసుకోవలసిన అవసరం లేదు; ఆమె ఖచ్చితమైన సూచన అవసరం. సామాజిక పరిశోధకులు తరచుగా అన్నా ఎదుర్కొంటున్న సమస్యలపై దృష్టి పెట్టారు, క్లెయిన్బెర్గ్ మరియు సహచరులు "వర్షం డ్యాన్స్ లాంటి" విధాన సమస్యలను- ఎందుకంటే వారు కారణాల ప్రశ్నలను కలిగి ఉన్నారు. క్లేన్బెర్గ్ మరియు సహోద్యోగులు "గొడుగు లాంటి" విధాన సమస్యలను "బెట్టీ" ఎదుర్కొంటున్న ఒక ప్రశ్న వంటివి చాలా ముఖ్యమైనవి, కానీ సామాజిక పరిశోధకుల నుండి చాలా తక్కువ శ్రద్ధ వహించాయి.

ప్రయోగాలు అంచనా (సెక్షన్ 2.4.3)

జర్నల్ PS పొలిటికల్ సైన్స్లో పెద్ద డేటా, కారల్ రిపోర్టు, మరియు ఫార్మల్ థియరీ, మరియు Clark and Golder (2015) లలో ఒక సింపోజియం ఉంది. యునైటెడ్ స్టేట్స్ ఆఫ్ అమెరికా యొక్క నేషనల్ అకాడెమి అఫ్ సైన్సెస్ జర్నల్ ప్రొసీడింగ్స్ కామన్ రిపోర్టు మరియు పెద్ద డేటాపై సింపోజియం కలిగివుంది, మరియు Shiffrin (2016) ప్రతి సహకారంను సంక్షిప్తీకరిస్తుంది. పెద్ద డేటా వనరుల లోపల సహజ ప్రయోగాలు స్వయంచాలకంగా కనిపించే ప్రయత్నం చేసే యంత్ర అభ్యాస విధానాలకు, Jensen et al. (2008) చూడండి Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , మరియు Sharma, Hofman, and Watts (2016) .

సహజ ప్రయోగాలు పరంగా, Dunning (2012) అనేక ఉదాహరణలతో పరిచయ, బుక్-పొడవు చికిత్సను అందిస్తుంది. సహజ ప్రయోగాల యొక్క అనుమానాస్పద దృశ్యంలో, Rosenzweig and Wolpin (2000) (ఆర్ధికశాస్త్రం) లేదా Sekhon and Titiunik (2012) (రాజకీయ శాస్త్రం) చూడండి. Deaton (2010) మరియు Heckman and Urzúa (2010) ప్రకృతి ప్రయోగాలపై దృష్టి పెట్టడం పరిశోధకులను అప్రధానంగా వచ్చే ప్రభావాలను అంచనా వేయడానికి దృష్టి పెట్టవచ్చని వాదిస్తారు; Imbens (2010) ఈ వాదనలు సహజ ప్రయోగాలు విలువ యొక్క మరింత సానుకూల దృక్పథంతో లెక్కించింది.

ఒక పరిశోధకుడు పనిచేసే ప్రభావంతో ముసాయిదా చేయబడిన ప్రభావాన్ని అంచనా వేయగలగటం గురించి వివరించినప్పుడు, నేను వాయిద్యాల చరరాశులుగా పిలువబడే ఒక సాంకేతికతను వివరించాను. Imbens and Rubin (2015) , వారి అధ్యాయాలు 23 మరియు 24, ఒక పరిచయం అందించడానికి మరియు ఒక ఉదాహరణగా డ్రాఫ్ట్ లాటరీ ఉపయోగించడానికి. ఫిర్యాదుదారులపై సైనిక సేవ యొక్క ప్రభావాన్ని కొన్నిసార్లు కంప్లైయెర్ సగటు కారణ ప్రభావం (CACE) మరియు కొన్నిసార్లు స్థానిక సగటు చికిత్స ప్రభావం (LATE) అని పిలుస్తారు. రాజకీయ శాస్త్రం, ఆర్థిక శాస్త్రం మరియు సామాజిక శాస్త్రం మరియు Sovey and Green (2011) లో వాయిద్యాల చరరాశుల వాడకం యొక్క సమీక్షలను Sovey and Green (2011) , Angrist and Krueger (2001) మరియు Bollen (2012) Angrist and Krueger (2001) వాయిద్యం వేరియబుల్స్ ఉపయోగించి అధ్యయనాలు మూల్యాంకనం.

ఇది 1970 డ్రాఫ్ట్ లాటరీ కాదు, నిజానికి సరిగ్గా యాదృచ్ఛికంగా మారుతుంది; స్వచ్ఛమైన యాదృచ్ఛికత నుండి చిన్న తేడాలు ఉన్నాయి (Fienberg 1971) . Berinsky and Chatfield (2015) ఈ చిన్న విచలనం గణనీయంగా ముఖ్యం కాదు మరియు సరిగా నిర్వహించిన యాదృచ్ఛికత యొక్క ప్రాముఖ్యతను చర్చిస్తుంది.

సరిపోలే పరంగా, Stuart (2010) ఒక ఆశావాద సమీక్ష కోసం, మరియు ఒక నిరాశావాద సమీక్ష కోసం Sekhon (2009) . ఒక రకమైన కత్తిరింపు వలె సరిపోలడం కోసం Ho et al. (2007) చూడండి Ho et al. (2007) . ఒక్కొక్క వ్యక్తికి ఒకే ఒక్క పర్ఫెక్ట్ మ్యాచ్ కనుక్కోవడం చాలా కష్టం, మరియు ఇది అనేక సంక్లిష్టతలను పరిచయం చేస్తుంది. మొదటిది, ఖచ్చితమైన మ్యాచ్లు అందుబాటులో లేనప్పుడు, రెండు విభాగాల మధ్య దూరాన్ని ఎలా అంచనా వేయాలి మరియు ఇచ్చిన దూరం దగ్గరగా ఉంటే ఎలా పరిశోధించాలో నిర్ణయించుకోవాలి. చికిత్స సమూహంలో ప్రతి కేసులోనూ పరిశోధకులు బహుళ మ్యాచ్లను ఉపయోగించాలనుకుంటే రెండవ సంక్లిష్టత తలెత్తుతుంది, ఎందుకంటే ఇది మరింత ఖచ్చితమైన అంచనాలకు దారితీస్తుంది. రెండు ఇబ్బందులు మరియు ఇతరులు Imbens and Rubin (2015) యొక్క 18 వ భాగంలో వివరంగా వివరించబడ్డాయి. పార్ట్ II ( ??? ) కూడా చూడండి.

ఒక ఉదాహరణ కోసం Dehejia and Wahba (1999) చూడండి. కానీ, ప్రయోగాత్మక బెంచ్మార్క్ ను పునరుత్పత్తి చేయడానికి సరిపోలే పద్దతులు విఫలమవడానికి ఉదాహరణలు Arceneaux, Gerber, and Green (2010) Arceneaux, Gerber, and Green (2006) మరియు Arceneaux, Gerber, and Green (2010) .

Rosenbaum (2015) మరియు Hernán and Robins (2016) పెద్ద సమాచార వనరుల్లో ఉపయోగకరమైన పోలికలను తెలుసుకునేందుకు ఇతర సలహాలను అందిస్తున్నాయి.