Bit By Bit: Social Research in the Digital Age
  • గురించి
    • ఓపెన్ రివ్యూ
    • citation
    • కోడ్
    • రచయిత గురుంచి
    • గోప్యత & సమ్మతి
  • భాషలు
    • English
    • Afrikaans
    • Albanian
    • Amharic
    • Arabic
    • Armenian
    • Azerbaijani
    • Basque
    • Belarusian
    • Bengali
    • Bosnian
    • Bulgarian
    • Catalan
    • Cebuano
    • Chichewa
    • Chinese Simplified
    • Chinese Traditional
    • Corsican
    • Croatian
    • Czech
    • Danish
    • Dutch
    • Esperanto
    • Estonian
    • Filipino
    • Finnish
    • French
    • Frisian
    • Galician
    • Georgian
    • German
    • Greek
    • Gujarati
    • Haitian Creole
    • Hausa
    • Hawaiian
    • Hebrew
    • Hindi
    • Hmong
    • Hungarian
    • Icelandic
    • Igbo
    • Indonesian
    • Irish
    • Italian
    • Japanese
    • Javanese
    • Kannada
    • Kazakh
    • Khmer
    • Korean
    • Kurdish (Kurmanji)
    • Kyrgyz
    • Lao
    • Latin
    • Latvian
    • Lithuanian
    • Luxembourgish
    • Macedonian
    • Malagasy
    • Malay
    • Malayalam
    • Maltese
    • Maori
    • Marathi
    • Mongolian
    • Myanmar (Burmese)
    • Nepali
    • Norwegian
    • Pashto
    • Persian
    • Polish
    • Portuguese
    • Punjabi
    • Romanian
    • Russian
    • Samoan
    • Scots Gaelic
    • Serbian
    • Sesotho
    • Shona
    • Sindhi
    • Sinhala
    • Slovak
    • Slovenian
    • Somali
    • Spanish
    • Sudanese
    • Swahili
    • Swedish
    • Tajik
    • Tamil
    • Telugu
    • Thai
    • Turkish
    • Ukrainian
    • Urdu
    • Uzbek
    • Vietnamese
    • Welsh
    • Xhosa
    • Yiddish
    • Yoruba
    • Zulu
  • Teaching
  • Media
  • Read Online
  • పుస్తకం కొనండి
    • Princeton University Press
    • Amazon
    • Barnes and Noble
    • IndieBound
  • ముందుమాట
  • 1 పరిచయం
    • 1.1 యాన్ సిరా బ్లాట్
    • 1.2 డిజిటల్ యుగం స్వాగతం
    • 1.3 పరిశోధన నమూనా
    • 1.4 ఈ పుస్తకం యొక్క థీమ్స్
    • 1.5 ఈ పుస్తకం యొక్క అవుట్లైన్
    • తదుపరి చదవటానికి ఏమి
  • 2 గమనించిన ప్రవర్తనను
    • 2.1 పరిచయం
    • 2.2 బిగ్ డేటా
    • 2.3 పెద్ద డేటా పది సాధారణ లక్షణాలు
      • 2.3.1 బిగ్
      • 2.3.2 ఎల్లప్పుడు
      • 2.3.3 Nonreactive
      • 2.3.4 అసంపూర్ణంగా
      • 2.3.5 యాక్సెస్ చేయలేనిది
      • 2.3.6 నిరాకరించలేదు
      • 2.3.7 కూరుకుపోయే
      • 2.3.8 ఆల్గోరిథమిక్ వివాదాస్పదమైంది
      • 2.3.9 డర్టీ
      • 2.3.10 సున్నితమైన
    • 2.4 రీసెర్చ్ వ్యూహాలు
      • 2.4.1 కౌంటింగ్ విషయాలు
      • 2.4.2 ఫోర్కాస్టింగ్ మరియు nowcasting
      • 2.4.3 దాదాపు ప్రయోగాలు
    • 2.5 తీర్మానం
    • గణిత గమనికలు
    • తదుపరి చదవటానికి ఏమి
    • చర్యలు
  • 3 అడుగుతూ ప్రశ్నలు
    • 3.1 పరిచయం
    • 3.2 గమనిస్తూ ఉండటం అడుగుతూ
    • 3.3 మొత్తం సర్వే లోపం ఫ్రేమ్
      • 3.3.1 రిప్రజెంటేషన్
      • 3.3.2 కొలత
      • 3.3.3 ఖర్చు
    • 3.4 ఎవరు గోవా
    • 3.5 ప్రశ్నలు అడగడం నూతన మార్గాలు
      • 3.5.1 పర్యావరణ క్షణికమైన లెక్కింపులు
      • 3.5.2 వికీ సర్వేలు
      • 3.5.3 Gamification
    • 3.6 సర్వేలు పెద్ద సమాచార వనరులతో ముడిపడివున్నాయి
      • 3.6.1 సమృద్ధిగా అడగడం
      • 3.6.2 అడగడం విస్తరించడం
    • 3.7 తీర్మానం
    • గణిత గమనికలు
    • తదుపరి చదవటానికి ఏమి
    • చర్యలు
  • 4 రన్నింగ్ ప్రయోగాలు
    • 4.1 పరిచయం
    • 4.2 ప్రయోగాలు ఏమిటి?
    • 4.3 రెండు ప్రయోగాలు కొలతలు: ప్రయోగశాల రంగంలో మరియు అనలాగ్-డిజిటల్
    • 4.4 సాధారణ ప్రయోగాలు దాటి మూవింగ్
      • 4.4.1 చెల్లుబాటు
      • 4.4.2 చికిత్సా ఫలితాలని యొక్క భిన్నత్వం
      • 4.4.3 మెకానిజమ్స్
    • 4.5 అది జరిగే మేకింగ్
      • 4.5.1 ఇప్పటికే ఉన్న ఎన్విరాన్మెంట్లను ఉపయోగించండి
      • 4.5.2 మీ స్వంత ప్రయోగాన్ని నిర్మించండి
      • 4.5.3 మీ సొంత ఉత్పత్తిని 4.5.3
      • 4.5.4 శక్తివంతమైన తో భాగస్వామి
    • 4.6 సలహా
      • 4.6.1 సున్నా వేరియబుల్ ఖర్చు డేటా సృష్టించు
      • 4.6.2 నీ రూపకల్పనలో నీతిని 4.6.2 : భర్తీ, శుద్ధి, తగ్గించడం
    • 4.7 తీర్మానం
    • గణిత గమనికలు
    • తదుపరి చదవటానికి ఏమి
    • చర్యలు
  • 5 మాస్ సహకారంతో సృష్టిస్తోంది
    • 5.1 పరిచయం
    • 5.2 మానవ గణన
      • 5.2.1 గాలక్సీ జూ
      • 5.2.2 రాజకీయ కార్యచరణ పత్రాల్లో క్రౌడ్ కోడింగ్
      • 5.2.3 తీర్మానం
    • 5.3 ఓపెన్ కాల్స్
      • 5.3.1 నెట్ఫ్లిక్స్ ప్రైజ్
      • 5.3.2 Foldit
      • 5.3.3 పీర్-టు-పేటెంట్
      • 5.3.4 తీర్మానం
    • 5.4 డిస్ట్రిబ్యూటెడ్ డేటా సేకరణ
      • 5.4.1 eBird
      • 5.4.2 PhotoCity
      • 5.4.3 తీర్మానం
    • 5.5 మీ స్వంత డిజైనింగ్
      • 5.5.1 చైతన్యపరచటంలో పాల్గొనే
      • 5.5.2 పరపతి భిన్నత్వం
      • 5.5.3 ఫోకస్ దృష్టిని
      • 5.5.4 ఆశ్చర్యం ప్రారంభించు
      • 5.5.5 నైతిక ఉండండి
      • 5.5.6 ఫైనల్ డిజైన్ సలహాలు
    • 5.6 తీర్మానం
    • తదుపరి చదవటానికి ఏమి
    • చర్యలు
  • 6 ఎథిక్స్
    • 6.1 పరిచయం
    • 6.2 మూడు ఉదాహరణలు
      • 6.2.1 ఎమోషనల్ ఒకరి నుండి ఇంకొకరి వ్యాపించేది
      • 6.2.2 రుచి, టైలు మరియు సమయం
      • 6.2.3 ఎంకోర్
    • 6.3 డిజిటల్ భిన్నంగా ఉంటుంది
    • 6.4 నాలుగు సూత్రాలు
      • 6.4.1 పర్సన్స్ గౌరవించుకోవటం
      • 6.4.2 బెనిఫిసెన్స్
      • 6.4.3 జస్టిస్
      • 6.4.4 కోసం లా అండ్ పబ్లిక్ ఇంటరెస్ట్ గౌరవం
    • 6.5 రెండు నైతిక చట్రాలు
    • 6.6 కష్టం ప్రాంతాలు
      • 6.6.1 ఔషధాన్ని
      • 6.6.2 గ్రహించుట మరియు మేనేజింగ్ సమాచార ప్రమాదం
      • 6.6.3 గోప్యతా
      • 6.6.4 అనిశ్చితి నేపథ్యంలో నిర్ణయాలు మేకింగ్
    • 6.7 ప్రాక్టికల్ చిట్కాలు
      • 6.7.1 IRB ఒక అంతస్తు, ఒక సీలింగ్ ఉంది
      • 6.7.2 అందరి బూట్లు మీరు ఉంచండి
      • 6.7.3 నిరంతర, వివిక్త కాదు పరిశోధనా నైతికతలు థింక్
    • 6.8 తీర్మానం
    • హిస్టారికల్ అనుబంధంలో
    • తదుపరి చదవటానికి ఏమి
    • చర్యలు
  • 7 భవిష్యత్తులో
    • 7.1 ముందుకు వెతుకుతోంది
    • భవిష్యత్ 7.2 థీమ్స్
      • 7.2.1 readymades మరియు custommades యొక్క మిశ్రమం
      • 7.2.2 పార్టిసిపెంట్-కేంద్రీకృత డేటా సేకరణ
      • 7.2.3 పరిశోధన రూపకల్పన లో ఎథిక్స్
    • 7.3 ప్రారంభానికి తిరిగి
  • అందినట్లు
  • ప్రస్తావనలు
ఈ అనువాదం కంప్యూటర్ ద్వారా సృష్టించబడింది. ×

తదుపరి చదవటానికి ఏమి

  • పరిచయము (విభాగం 2.1)

ఈ అధ్యాయంలో చేర్చని ఒక రకమైన జాతి ఎథ్నోగ్రఫీ. డిజిటల్ ప్రదేశాలలో ఎథ్నోగ్రఫీపై మరింత సమాచారం కోసం, Boellstorff et al. (2012) చూడండి Boellstorff et al. (2012) , మరియు మిశ్రమ డిజిటల్ మరియు భౌతిక ప్రదేశాల్లోని ఎథ్నోగ్రఫీ కోసం మరిన్ని, Lane (2016) .

  • బిగ్ డేటా (విభాగం 2.2)

"పెద్ద డేటా" యొక్క ఏక ఏకాభిప్రాయం నిర్వచనం లేదు, కానీ అనేక నిర్వచనాలు "3 Vs" పై దృష్టి పెట్టాయి: వాల్యూమ్, Japec et al. (2015) మరియు వేగం (ఉదా., Japec et al. (2015) ). De Mauro et al. (2015) చూడండి De Mauro et al. (2015) నిర్వచనాల సమీక్ష కోసం.

పెద్ద డేటా విభాగంలో ప్రభుత్వ పరిపాలన డేటాను చేర్చడం ఒక బిట్ అసాధారణమైనది, అయినప్పటికీ ఇతరులు కూడా ఈ కేసును చేశారు, వీటిలో Legewie (2015) , Connelly et al. (2016) , మరియు Einav and Levin (2014) . పరిశోధన కోసం ప్రభుత్వ పాలనా డేటా విలువ గురించి మరింత సమాచారం కోసం, Card et al. (2010) చూడండి Card et al. (2010) , Adminstrative Data Taskforce (2012) , మరియు Grusky, Smeeding, and Snipp (2015) .

ప్రభుత్వ గణాంక వ్యవస్థలో, ప్రత్యేకంగా US సెన్సస్ బ్యూరోలో ఉన్న పరిపాలనా పరిశోధన దృష్ట్యా, Jarmin and O'Hara (2016) . స్టాటిస్టిక్స్ స్వీడన్లో నిర్వాహక రికార్డుల పరిశోధన యొక్క పుస్తకం-పొడవు చికిత్స కోసం, Wallgren and Wallgren (2007) .

అధ్యాయంలో, నేను క్లుప్తంగా సాంప్రదాయిక సర్వేని జనరల్ సోషల్ సర్వే (GSS) వంటి సోషల్ మీడియా సమాచార మూలంతో ట్విట్టర్ లాగా పోల్చాను. సంప్రదాయ సర్వేలు మరియు సోషల్ మీడియా Schober et al. (2016) మధ్య సమగ్రమైన మరియు జాగ్రత్తగా పోలిక కోసం, Schober et al. (2016) చూడండి Schober et al. (2016) .

  • పెద్ద డేటా యొక్క సాధారణ లక్షణాలు (విభాగం 2.3)

విభిన్న రచయితలు వివిధ రకాలుగా పెద్ద డేటా యొక్క ఈ 10 లక్షణాలు వర్ణించబడ్డాయి. ఈ అంశాలపై నా ఆలోచనను ప్రభావితం చేస్తూ రాయడం Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , మరియు Goldstone and Lupyan (2016) .

ఈ అధ్యాయం అంతటా, నేను ఉపయోగించే పదం డిజిటల్ జాడలు , నేను చాలా తటస్థంగా భావిస్తాను. డిజిటల్ జాడల కోసం మరొక ప్రసిద్ధ పదం డిజిటల్ పాదముద్రలు (Golder and Macy 2014) , కానీ హాల్ అబెల్సన్, కెన్ లడీన్, మరియు హ్యారీ లెవిస్ (2008) , మరింత ఖచ్చితమైన పదం బహుశా డిజిటల్ వేలిముద్రలు . మీరు పాదముద్రలను సృష్టించినప్పుడు, మీరు ఏమి జరుగుతుందో తెలుసుకుంటారు మరియు మీ పాదముద్రలు సాధారణంగా మీకు వ్యక్తిగతంగా గుర్తించబడవు. మీ డిజిటల్ జాడలకు ఇది నిజం కాదు. వాస్తవానికి, మీరు చాలా తక్కువ జ్ఞానం కలిగి ఉన్న అన్ని సమయాలను మీరు వదిలివేస్తున్నారు. మరియు, ఈ జాడలు వాటిపై మీ పేరును కలిగి లేనప్పటికీ, వారు తరచుగా మీతో తిరిగి లింక్ చేయబడతారు. ఇతర మాటలలో, వారు మరింత వేలిముద్రలు వంటివి: అదృశ్య మరియు వ్యక్తిగతంగా గుర్తించడం.

  • బిగ్ (విభాగం 2.3.1)

గణాంక పరీక్షలు సమస్యాత్మకంగా ఎందుకు పెద్ద డేటాస్యాట్లను అందిస్తాయి, M. Lin, Lucas, and Shmueli (2013) మరియు McFarland and McFarland (2015) . ఈ విషయాలు గణాంక ప్రాముఖ్యత కంటే పరిశోధకులను ప్రాముఖ్యమైన ప్రాముఖ్యత మీద దృష్టి పెట్టాలి.

రాజ్ చెట్టి మరియు సహోద్యోగులు పన్నుల రికార్డులకు ఎలా ప్రాప్తించారో, Mervis (2014) .

పెద్ద డాటాసెట్ లు ఒకే కంప్యూటర్ యొక్క సామర్థ్యాలకు మించి ఉన్న గణన సమస్యలను సృష్టించగలవు. కాబట్టి, పెద్ద డేటాసెట్లపై గణనలను తయారుచేసే పరిశోధకులు తరచూ అనేక కంప్యూటర్లపై పనిని విస్తరించారు, ఈ ప్రక్రియ కొన్నిసార్లు సమాంతర ప్రోగ్రామింగ్ అని పిలువబడుతుంది. సమాంతర కార్యక్రమాలకు ఒక పరిచయానికి, ముఖ్యంగా హడూప్ అని పిలవబడే భాష, Vo and Silvia (2016) .

  • ఎల్లప్పుడు-న (సెక్షన్ 2.3.2)

ఎప్పటికప్పుడు డేటాను పరిశీలిస్తే, మీరు ఖచ్చితమైన వ్యక్తులను కాలక్రమేణా పోల్చారో లేదో లేదా మీరు కొంతమంది మారుతున్న వ్యక్తుల సమూహాన్ని పోల్చారో లేదో పరిశీలించటం ముఖ్యం; ఉదాహరణ కోసం చూడండి, Diaz et al. (2016) .

  • Nonreactive (విభాగం ¿సెకను: రియాక్టివ్ కాని? )

Nonreactive చర్యలపై ఒక క్లాసిక్ పుస్తకం Webb et al. (1966) . ఆ పుస్తకంలో ఉన్న ఉదాహరణలు డిజిటల్ యుగానికి ముందు ఉన్నాయి, కానీ అవి ఇప్పటికీ ప్రకాశవంతమయ్యాయి. సామూహిక నిఘా ఉనికిని కలిగి ఉన్న కారణంగా వారి ప్రవర్తనను మార్చుకునే వ్యక్తుల కోసం, Penney (2016) మరియు Brayne (2014) .

పరిశోధకులు డిమాండ్ ప్రభావాలను (Orne 1962; Zizzo 2010) మరియు హాథోర్న్ ఎఫెక్ట్ (Adair 1984; Levitt and List 2011) రియాక్టివిటీ దగ్గరి సంబంధం కలిగి ఉంది.

  • అసంపూర్ణమైన (సెక్షన్ 2.3.4)

Dunn (1946) మరియు Fellegi and Sunter (1969) (చారిత్రక) మరియు Larsen and Winkler (2014) (ఆధునిక) లను చూడండి. ఇదే విధమైన విధానాలు కంప్యూటర్ సైన్స్లో పేర్లు, డేటా డిడ్యూప్సిపేషన్, ఉదాహరణ గుర్తింపు, పేరు సరిపోలిక, నకిలీ గుర్తింపు మరియు నకిలీ రికార్డు గుర్తింపు (Elmagarmid, Ipeirotis, and Verykios 2007) . వ్యక్తిగతంగా గుర్తించే సమాచారం ప్రసారం అవసరం లేని లింక్ రికార్డు కోసం గోప్యతా సంరక్షించే విధానాలు కూడా ఉన్నాయి (Schnell 2013) . తమ రికార్డులను ఓటింగ్ ప్రవర్తనకు లింక్ చేసే ప్రక్రియను ఫేస్బుక్ అభివృద్ధి చేసింది; ఇది నేను అధ్యాయంలో 4 (Bond et al. 2012; Jones et al. 2013) గురించి మీకు చెప్పే ఒక ప్రయోగాన్ని విశ్లేషించడానికి జరిగింది.

చెల్లుబాటు అయ్యే నిర్మాణానికి Shadish, Cook, and Campbell (2001) యొక్క 3 వ అధ్యాయం చూడండి.

  • యాక్సెస్ చేయలేని (విభాగం 2.3.5)

AOL శోధన లాగ్ ఓవర్లో మరిన్నింటి కోసం, Ohm (2010) . నేను ప్రయోగాలు వివరిస్తున్నప్పుడు అధ్యాయం 4 లో కంపెనీలు మరియు ప్రభుత్వాలతో భాగస్వామ్యం గురించి సలహా ఇస్తాను. యాక్సెసబుల్ డేటాపై ఆధారపడిన పరిశోధన గురించి అనేకమంది రచయితలు వ్యక్తం చేశారు, Huberman (2012) మరియు boyd and Crawford (2012) .

విశ్వవిద్యాలయ పరిశోధకులు సమాచారాన్ని యాక్సెస్ సాధించటం కోసం ఒక మంచి మార్గం ఒక ఇంటర్న్ లేదా సందర్శించడం పరిశోధకుడు ఒక సంస్థ వద్ద పని ఉంది. డేటా యాక్సెస్ ఎనేబుల్ పాటు, ఈ ప్రక్రియ కూడా పరిశోధకుడు ఎలా విశ్లేషణకు ముఖ్యం ఇది, డేటా రూపొందించారు గురించి మరింత తెలుసుకోవడానికి సహాయపడుతుంది.

ప్రభుత్వ డేటా పొందడం పరంగా, Mervis (2014) రాజ్ చెట్టి మరియు సహచరులు సాంఘిక చలనశీలతపై వారి పరిశోధనలో ఉపయోగించిన పన్ను రికార్డులకు ఎలా ప్రాప్తి చేశారో చర్చించారు.

  • ప్రతినిధి కానివారు (క్షణ: ప్రతినిధి)

Kruskal and Mosteller (1979a) Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979b) Kruskal and Mosteller (1979c) , Kruskal and Mosteller (1979c) , మరియు Kruskal and Mosteller (1979c) Kruskal and Mosteller (1980) .

మంచు పని నా సారాంశాలు మరియు డాల్ మరియు హిల్ యొక్క పని క్లుప్తంగా ఉన్నాయి. కలరా పై మంచు పని మీద, Freedman (1991) . బ్రిటీష్ డాక్టర్స్ స్టడీలో Doll et al. (2004) చూడండి Doll et al. (2004) మరియు Keating (2014) .

డాల్ మరియు హిల్ మహిళా వైద్యులు మరియు 35 సంవత్సరాలలో వైద్యులు నుండి సమాచారాన్ని సేకరించినప్పటికీ, వారు ఉద్దేశపూర్వకంగా వారి మొదటి విశ్లేషణలో ఈ సమాచారాన్ని ఉపయోగించలేదని చాలామంది పరిశోధకులు ఆశ్చర్యపోతారు. వారు వాదించారు: "ఊపిరితిత్తుల క్యాన్సర్ మహిళలు మరియు 35 కంటే తక్కువ వయస్సులో సాపేక్షంగా అరుదుగా ఉన్నందున, ఉపయోగపడే గణాంకాలు రాబోయే సంవత్సరాల్లో ఈ సమూహాలలో పొందటానికి అవకాశం లేదు. ఈ ప్రాధమిక నివేదికలో మనము 35 Rothman, Gallacher, and Hatch (2013) పైబడిన పురుషులకు మా దృష్టిని పరిమితం చేసాము. " Rothman, Gallacher, and Hatch (2013) , రెచ్చగొట్టే శీర్షిక" ఎందుకు ప్రాతినిధ్యతని తప్పించకూడదు "అనే దానిపై విలువైన వాదన ఉద్దేశ్యపూర్వకంగా nonrepresentative డేటా సృష్టించడం.

మొత్తం జనాభా గురించి ప్రకటనలు చేయాలనుకునే పరిశోధకులకు మరియు ప్రభుత్వాలకు ఒక అభ్యంతరం లేదు. ఇది వారి వినియోగదారులపై దృష్టి సారించే కంపెనీల కోసం ఇది తక్కువగా ఉంటుంది. నెదర్లాండ్స్ గణాంక సమాచారం ఎలా పెద్దది కాదు అని బిజినెస్ పెద్ద డేటా యొక్క Buelens et al. (2014) యొక్క సమస్య, చూడండి Buelens et al. (2014) .

పెద్ద సమాచార వనరుల ప్రతినిధుల స్వభావం గురించి ఆందోళన వ్యక్తం చేసిన పరిశోధకులకు ఉదాహరణలు, boyd and Crawford (2012) , K. Lewis (2015b) Hargittai (2015) K. Lewis (2015b) , మరియు K. Lewis (2015b) Hargittai (2015) .

సాంఘిక సర్వేలు మరియు ఎపిడెమియోలాజికల్ పరిశోధనల యొక్క మరింత వివరణాత్మక పోలిక కోసం, Keiding and Louis (2016) .

ఓటర్లను Jungherr (2013) , ప్రత్యేకించి 2009 జర్మనీ ఎన్నికల సందర్భంగా, Jungherr (2013) మరియు Jungherr (2015) Jungherr (2013) చూడడానికి ట్విటర్ ను ఉపయోగించుకోవటానికి ప్రయత్నాలు చేయటానికి మరింత ప్రయత్నించుటకు. Tumasjan et al. (2010) పని తరువాత Tumasjan et al. (2010) ప్రపంచ వ్యాప్తంగా పరిశోధకులు అభిమానుల పద్ధతులను ఉపయోగించారు-పార్టీల సానుకూల మరియు ప్రతికూల భావాలను గుర్తించడానికి సెంటిమెంట్ విశ్లేషణను ఉపయోగించడం వంటివి (Gayo-Avello 2013; Jungherr 2015, chap. 7.) రకాలైన ఎన్నికలను అంచనా వేయడానికి ట్విటర్ డేటా సామర్థ్యాన్ని మెరుగుపరిచేందుకు (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Huberty (2015) ఎన్నికలను అంచనా వేసేందుకు ఈ ప్రయత్నాల ఫలితాలను సంగ్రహించారు:

"సోషల్ మీడియాపై ఆధారపడిన ప్రసిద్ధమైన అన్ని సూచన విధానాలు విఫలమయ్యాయి, ఇవి నిజమైన ముందుకు చూసే ఎన్నికల సూచనల యొక్క డిమాండ్లకు లోనయ్యాయి. ఈ వైఫల్యాలు సిద్ధాంతపరమైన లేదా అల్గోరిథమిక్ ఇబ్బందులకు బదులుగా, సోషల్ మీడియా యొక్క ప్రాధమిక లక్షణాలు కారణంగా కనిపిస్తాయి. సంక్షిప్తంగా, సోషల్ మీడియా లేదు, మరియు బహుశా ఎప్పుడూ, ఓటు స్థిరమైన, నిష్పాక్షికమైన, ప్రతినిధి చిత్రం అందించే; మరియు సోషల్ మీడియా యొక్క సౌలభ్యం నమూనాలు ఈ సమస్యలను పరిష్కరించడానికి తగినంత డేటాను కలిగి లేవు. "

అధ్యాయంలో 3, నేను చాలా వివరంగా మాదిరి మరియు అంచనాను వివరించాను. డేటా నిస్సందేహంగా లేనప్పటికీ, కొన్ని పరిస్థితులలో, వారు మంచి అంచనాలను ఉత్పత్తి చేయటానికి వీలు కలిగిస్తారు.

  • కూరుకుపోయే (విభాగం ¿సెకను: డ్రిఫ్టింగ్? )

సిస్టమ్ డ్రిఫ్ట్ వెలుపల నుండి చూడటానికి చాలా కష్టంగా ఉంది. ఏదేమైనా, మూవీల్న్స్ ప్రాజెక్ట్ (అధ్యాయంలో 4 లో మరింత చర్చించబడింది) ఒక విద్యాసంబంధ పరిశోధన బృందం ద్వారా 15 కన్నా ఎక్కువ సంవత్సరాలు అమలు చేయబడింది. అందువల్ల, వ్యవస్థ కాలక్రమేణా అభివృద్ధి చెందిందని మరియు ఎలా విశ్లేషణపై ప్రభావాన్ని చూపుతుంది (Harper and Konstan 2015) గురించి సమాచారాన్ని డాక్యుమెంట్ చేసి, పంచుకోగలిగారు.

Liu, Kliman-Silver, and Mislove (2014) మరియు Tufekci (2014) : ట్విట్టర్లో అనేకమంది పరిశోధకులు దృష్టి పెట్టారు.

జనాభా ప్రవాహంతో వ్యవహరించడానికి ఒక విధానం వినియోగదారుల సమూహాన్ని సృష్టించడం, ఇది పరిశోధకులు ఒకే కాలంలోని ఒకే వ్యక్తులను అధ్యయనం చేయడానికి అనుమతిస్తుంది, Diaz et al. (2016) చూడండి Diaz et al. (2016) .

  • అల్గారిథమిక్ గందరగోళం (విభాగం ¿సెకను: algorthmically-confounded? )

జోన్ క్లెయిన్బెర్గ్ వాడినప్పుడు "అల్గారిథమిక్ కంగారుపడిన" అనే పదాన్ని మొదట నేను విన్నాను, కాని దురదృష్టవశాత్తు నేను మాట్లాడినప్పుడు లేదా ఎప్పుడు ఎక్కడ గుర్తు పెట్టుకోలేదు. ప్రింట్లో నేను చూసిన మొదటిసారి Anderson et al. (2015) , డేటింగ్ సైట్లు ఉపయోగించే అల్గోరిథంలు సామాజిక ప్రాధాన్యతలను అధ్యయనం చేయడానికి ఈ వెబ్సైట్ల నుండి డేటాను ఉపయోగించడానికి పరిశోధకుల సామర్థ్యాన్ని క్లిష్టతరం చేస్తాయనే విషయంలో ఒక ఆసక్తికరమైన చర్చ. Anderson et al. (2014) K. Lewis (2015a) ప్రతిస్పందనగా K. Lewis (2015a) ఈ ఆందోళనను పెంచింది Anderson et al. (2014) .

ఫేస్బుక్కి అదనంగా, వినియోగదారులు త్రికోడ్ మూసివేత ఆలోచన ఆధారంగా అనుసరించడానికి ప్రజలను సిఫారసు చేస్తారు; Su, Sharma, and Goel (2016) . కాబట్టి ట్విట్టర్లో ట్రైడాక్ మూసివేత స్థాయి ట్రియాడిక్ మూసివేత వైపు కొన్ని మానవ ధోరణి మరియు ముదురు మూసివేతను ప్రోత్సహించడానికి కొన్ని అల్గారిథమిక్ ధోరణుల కలయిక.

కొన్ని సాంఘిక శాస్త్ర సిద్ధాంతాలు "ఇంజన్లు కెమెరాలు కావు" (అనగా అవి వర్ణించేదాని కంటే ప్రపంచాన్ని ఆకృతం చేస్తాయి) - సీ Mackenzie (2008) ప్రత్యేకమైన పనితీరును మరింత ప్రత్యేకంగా చెప్పవచ్చు.

  • డర్టీ (సెక్షన్ 2.3.9)

ప్రభుత్వ గణాంక సంస్థలు గణాంక డేటా ఎడిటింగ్ను శుభ్రపరిస్తాయి. De Waal, Puts, and Daas (2014) గణాంక డేటా ఎడిటింగ్ పద్ధతులను సర్వే డేటా కోసం అభివృద్ధి చేశారు మరియు అవి పెద్ద డేటా మూలాలకు వర్తించే పరిధిని పరిశీలించడం మరియు Puts, Daas, and Waal (2015) మరింత సాధారణ ప్రేక్షకులు.

సాంఘిక బాట్లను గురించి, Ferrara et al. (2016) చూడండి Ferrara et al. (2016) . ట్విట్టర్లో స్పామ్ కనుగొనడంలో కొన్ని అధ్యయనాలకు సంబంధించిన అధ్యయనాలకు, Clark et al. (2016) చూడండి Clark et al. (2016) మరియు Chu et al. (2012) . చివరగా, Subrahmanian et al. (2016) DARPA ట్విటర్ బోట్ ఛాలెంజ్, ట్విట్టర్ లో బాట్లను గుర్తించే విధానాలను పోల్చడానికి రూపొందించిన ఒక సామూహిక సహకారం యొక్క ఫలితాలను వివరిస్తుంది.

  • సున్నితమైన (విభాగం 2.3.10)

Ohm (2015) సున్నితమైన సమాచారం యొక్క ఆలోచనపై పరిశోధనను ముందు సమీక్షించి బహుళ-కారక పరీక్షను అందిస్తుంది. అతను ప్రతిపాదించిన నాలుగు కారకాలు హాని యొక్క పరిణామం, హాని యొక్క సంభావ్యత, రహస్య సంబంధ ఉనికి, మరియు ప్రమాదం మెజారిటీ ఆందోళనలను ప్రతిబింబిస్తున్నాయని సూచిస్తుంది.

  • లెక్కింపు విషయాలు (సెక్షన్ 2.4.1)

న్యూయార్క్లో Camerer et al. (1997) ఫారెర్ యొక్క అధ్యయనం Camerer et al. (1997) ప్రారంభ అధ్యయనంలో ఉంది Camerer et al. (1997) పేపర్ ట్రిప్ షీట్స్ యొక్క మూడు వేర్వేరు సౌలభ్య నమూనాలను ఉపయోగించింది. ఈ మునుపటి అధ్యయనం డ్రైవర్లు లక్ష్యాన్ని సంపాదించేవారు అనిపించింది: వారి వేతనాలు ఎక్కువ ఉన్న రోజులలో తక్కువ పని చేస్తాయి.

తదుపరి పనిలో, కింగ్ మరియు సహచరులు చైనాలో (King, Pan, and Roberts 2014, [@king_how_2016] ) ఆన్లైన్ సెన్సార్షిప్ను మరింత అన్వేషించారు. చైనాలో ఆన్లైన్ సెన్సార్షిప్ కొలిచే ఒక సంబంధిత విధానం కోసం, Bamman, O'Connor, and Smith (2012) . 11 మిలియన్ పోస్టుల సెంటిమెంట్ని అంచనా వేయడానికి King, Pan, and Roberts (2013) లో ఉపయోగించిన గణాంక పద్ధతులకు మరింత ఎక్కువగా Hopkins and King (2010) . పర్యవేక్షణలో మరింత తెలుసుకోవడానికి, James et al. (2013) చూడండి James et al. (2013) (తక్కువ సాంకేతికత) మరియు Hastie, Tibshirani, and Friedman (2009) (మరింత సాంకేతికమైనది).

  • ఫోర్కాస్టింగ్ మరియు ఇప్పుడుక్యాస్టింగ్ (సెక్షన్ 2.4.2)

పారిశ్రామిక డేటా సైన్స్ (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) యొక్క పెద్ద భాగం ఫోర్కాస్టింగ్. సాంఘిక పరిశోధకుల ద్వారా సాధారణంగా జరిగే ఒక రకమైన అంచనా, జనాభా అంచనా; ఉదాహరణకు, Raftery et al. (2012) .

గూగుల్ ఫ్లూ ట్రెండ్స్ ఇప్పుడు ఇన్కాస్ట్ ఇన్ఫ్లుఎంజా ప్రాబల్యతకు శోధన డేటాను ఉపయోగించిన మొట్టమొదటి ప్రాజెక్ట్ కాదు. వాస్తవానికి, యునైటెడ్ స్టేట్స్ (Polgreen et al. 2008; Ginsberg et al. 2009) మరియు స్వీడన్ (Hulth, Rydevik, and Linde 2009) పరిశోధకులు కొన్ని శోధన పదాలు (ఉదా., "ఫ్లూ") జాతీయ ప్రజా ఆరోగ్య పర్యవేక్షణ డేటా విడుదలకు ముందు. తరువాతి చాలా, అనేక ఇతర ప్రాజెక్టులు వ్యాధి నిఘా గుర్తింపును కోసం డిజిటల్ ట్రేస్ డేటా ఉపయోగించడానికి ప్రయత్నించారు; Althouse et al. (2015) చూడండి Althouse et al. (2015) సమీక్ష కోసం.

ఆరోగ్య ఫలితాలను అంచనా వేయడానికి డిజిటల్ ట్రేస్ డేటాను ఉపయోగించడంతో పాటు, ఎన్నికల ఫలితాలను అంచనా వేయడానికి Twitter డేటాను ఉపయోగించి భారీ మొత్తంలో పని ఉంది; Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (అధ్యాయం 7), మరియు Huberty (2015) . స్థూల జాతీయోత్పత్తి (జిడిపి) వంటి ఆర్థిక సూచికల యొక్క నోస్కాస్టింగ్ కేంద్ర బ్యాంకులు కూడా సాధారణం, Bańbura et al. (2013) చూడండి Bańbura et al. (2013) . పట్టిక 2.8 ప్రపంచంలో కొన్ని రకమైన కార్యక్రమాలను అంచనా వేయడానికి కొన్ని రకాల డిజిటల్ ట్రేస్లను ఉపయోగించే అధ్యయనాల యొక్క కొన్ని ఉదాహరణలు ఉన్నాయి.

టేబుల్ 2.8: కొన్ని సంఘటనలను అంచనా వేయడానికి ఒక బిగ్ డేటా మూలాన్ని ఉపయోగించుకునే స్టడీస్
డిజిటల్ ట్రేస్ ఫలితం citation
ట్విట్టర్ యుఎస్ లోని బాక్స్ ఆఫీస్ ఆదాయం Asur and Huberman (2010)
లాగ్లను శోధించండి అమెరికాలో సినిమాలు, సంగీతం, పుస్తకాలు, మరియు వీడియోల అమ్మకాలు Goel et al. (2010)
ట్విట్టర్ డౌ జోన్స్ ఇండస్ట్రియల్ యావరేజ్ (US స్టాక్ మార్కెట్) Bollen, Mao, and Zeng (2011)
సోషల్ మీడియా మరియు శోధన లాగ్లు యునైటెడ్ స్టేట్స్, యునైటెడ్ కింగ్డమ్, కెనడా మరియు చైనాలో పెట్టుబడిదారుల సెంటిమెంట్ మరియు స్టాక్ మార్కెట్ల సర్వేలు Mao et al. (2015)
లాగ్లను శోధించండి సింగపూర్ మరియు బ్యాంకాక్లలో డెంగ్యూ ఫీవర్ యొక్క వ్యాప్తి Althouse, Ng, and Cummings (2011)

చివరగా, జోన్ క్లెయిన్బెర్గ్ మరియు సహచరులు (2015) అంచనాలు రెండు వేర్వేరు వర్గాల్లోకి వస్తాయి మరియు సాంఘిక శాస్త్రవేత్తలు ఒకదానిపై దృష్టి సారించాలని మరియు మరొకరిని విస్మరించాలని సూచించారు. ఒక విధానం తయారీదారుని ఊహించు, నేను ఆమె అన్నాను పిలుస్తాను, ఎవరు కరువును ఎదుర్కొంటున్నారు మరియు వర్షం పడే అవకాశాన్ని పెంచడానికి వర్షపు నృత్యం చేయటానికి షమాన్ను తీసుకోవాలని నిర్ణయించుకోవాలి. ఇంకొక విధాన నిర్ణేత, నేను ఆమె బెట్టీని పిలుస్తాను, ఇంటికి తడిగా ఉండకుండా నివారించడానికి ఒక గొడుగు తీసుకోవాలో లేదో నిర్ణయించుకోవాలి. అన్నా మరియు బెట్టీలు వాతావరణాన్ని అర్థం చేసుకుంటే మంచి నిర్ణయం తీసుకుంటారు, కాని వారు వివిధ విషయాలను తెలుసుకోవాలి. అన్నా వర్షం డ్యాన్స్ వర్షం కారణమా అని అర్థం చేసుకోవాలి. బెట్టీ, మరోవైపు, కారణాన్ని గురించి ఏదైనా అర్థం చేసుకోవలసిన అవసరం లేదు; ఆమె ఖచ్చితమైన సూచన అవసరం. సామాజిక పరిశోధకులు తరచుగా అన్నా ఎదుర్కొంటున్న సమస్యలపై దృష్టి పెట్టారు, క్లెయిన్బెర్గ్ మరియు సహచరులు "వర్షం డ్యాన్స్ లాంటి" విధాన సమస్యలను- ఎందుకంటే వారు కారణాల ప్రశ్నలను కలిగి ఉన్నారు. క్లేన్బెర్గ్ మరియు సహోద్యోగులు "గొడుగు లాంటి" విధాన సమస్యలను "బెట్టీ" ఎదుర్కొంటున్న ఒక ప్రశ్న వంటివి చాలా ముఖ్యమైనవి, కానీ సామాజిక పరిశోధకుల నుండి చాలా తక్కువ శ్రద్ధ వహించాయి.

  • ప్రయోగాలు అంచనా (సెక్షన్ 2.4.3)

జర్నల్ PS పొలిటికల్ సైన్స్లో పెద్ద డేటా, కారల్ రిపోర్టు, మరియు ఫార్మల్ థియరీ, మరియు Clark and Golder (2015) లలో ఒక సింపోజియం ఉంది. యునైటెడ్ స్టేట్స్ ఆఫ్ అమెరికా యొక్క నేషనల్ అకాడెమి అఫ్ సైన్సెస్ జర్నల్ ప్రొసీడింగ్స్ కామన్ రిపోర్టు మరియు పెద్ద డేటాపై సింపోజియం కలిగివుంది, మరియు Shiffrin (2016) ప్రతి సహకారంను సంక్షిప్తీకరిస్తుంది. పెద్ద డేటా వనరుల లోపల సహజ ప్రయోగాలు స్వయంచాలకంగా కనిపించే ప్రయత్నం చేసే యంత్ర అభ్యాస విధానాలకు, Jensen et al. (2008) చూడండి Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , మరియు Sharma, Hofman, and Watts (2016) .

సహజ ప్రయోగాలు పరంగా, Dunning (2012) అనేక ఉదాహరణలతో పరిచయ, బుక్-పొడవు చికిత్సను అందిస్తుంది. సహజ ప్రయోగాల యొక్క అనుమానాస్పద దృశ్యంలో, Rosenzweig and Wolpin (2000) (ఆర్ధికశాస్త్రం) లేదా Sekhon and Titiunik (2012) (రాజకీయ శాస్త్రం) చూడండి. Deaton (2010) మరియు Heckman and Urzúa (2010) ప్రకృతి ప్రయోగాలపై దృష్టి పెట్టడం పరిశోధకులను అప్రధానంగా వచ్చే ప్రభావాలను అంచనా వేయడానికి దృష్టి పెట్టవచ్చని వాదిస్తారు; Imbens (2010) ఈ వాదనలు సహజ ప్రయోగాలు విలువ యొక్క మరింత సానుకూల దృక్పథంతో లెక్కించింది.

ఒక పరిశోధకుడు పనిచేసే ప్రభావంతో ముసాయిదా చేయబడిన ప్రభావాన్ని అంచనా వేయగలగటం గురించి వివరించినప్పుడు, నేను వాయిద్యాల చరరాశులుగా పిలువబడే ఒక సాంకేతికతను వివరించాను. Imbens and Rubin (2015) , వారి అధ్యాయాలు 23 మరియు 24, ఒక పరిచయం అందించడానికి మరియు ఒక ఉదాహరణగా డ్రాఫ్ట్ లాటరీ ఉపయోగించడానికి. ఫిర్యాదుదారులపై సైనిక సేవ యొక్క ప్రభావాన్ని కొన్నిసార్లు కంప్లైయెర్ సగటు కారణ ప్రభావం (CACE) మరియు కొన్నిసార్లు స్థానిక సగటు చికిత్స ప్రభావం (LATE) అని పిలుస్తారు. రాజకీయ శాస్త్రం, ఆర్థిక శాస్త్రం మరియు సామాజిక శాస్త్రం మరియు Sovey and Green (2011) లో వాయిద్యాల చరరాశుల వాడకం యొక్క సమీక్షలను Sovey and Green (2011) , Angrist and Krueger (2001) మరియు Bollen (2012) Angrist and Krueger (2001) వాయిద్యం వేరియబుల్స్ ఉపయోగించి అధ్యయనాలు మూల్యాంకనం.

ఇది 1970 డ్రాఫ్ట్ లాటరీ కాదు, నిజానికి సరిగ్గా యాదృచ్ఛికంగా మారుతుంది; స్వచ్ఛమైన యాదృచ్ఛికత నుండి చిన్న తేడాలు ఉన్నాయి (Fienberg 1971) . Berinsky and Chatfield (2015) ఈ చిన్న విచలనం గణనీయంగా ముఖ్యం కాదు మరియు సరిగా నిర్వహించిన యాదృచ్ఛికత యొక్క ప్రాముఖ్యతను చర్చిస్తుంది.

సరిపోలే పరంగా, Stuart (2010) ఒక ఆశావాద సమీక్ష కోసం, మరియు ఒక నిరాశావాద సమీక్ష కోసం Sekhon (2009) . ఒక రకమైన కత్తిరింపు వలె సరిపోలడం కోసం Ho et al. (2007) చూడండి Ho et al. (2007) . ఒక్కొక్క వ్యక్తికి ఒకే ఒక్క పర్ఫెక్ట్ మ్యాచ్ కనుక్కోవడం చాలా కష్టం, మరియు ఇది అనేక సంక్లిష్టతలను పరిచయం చేస్తుంది. మొదటిది, ఖచ్చితమైన మ్యాచ్లు అందుబాటులో లేనప్పుడు, రెండు విభాగాల మధ్య దూరాన్ని ఎలా అంచనా వేయాలి మరియు ఇచ్చిన దూరం దగ్గరగా ఉంటే ఎలా పరిశోధించాలో నిర్ణయించుకోవాలి. చికిత్స సమూహంలో ప్రతి కేసులోనూ పరిశోధకులు బహుళ మ్యాచ్లను ఉపయోగించాలనుకుంటే రెండవ సంక్లిష్టత తలెత్తుతుంది, ఎందుకంటే ఇది మరింత ఖచ్చితమైన అంచనాలకు దారితీస్తుంది. రెండు ఇబ్బందులు మరియు ఇతరులు Imbens and Rubin (2015) యొక్క 18 వ భాగంలో వివరంగా వివరించబడ్డాయి. పార్ట్ II ( ??? ) కూడా చూడండి.

ఒక ఉదాహరణ కోసం Dehejia and Wahba (1999) చూడండి. కానీ, ప్రయోగాత్మక బెంచ్మార్క్ ను పునరుత్పత్తి చేయడానికి సరిపోలే పద్దతులు విఫలమవడానికి ఉదాహరణలు Arceneaux, Gerber, and Green (2010) Arceneaux, Gerber, and Green (2006) మరియు Arceneaux, Gerber, and Green (2010) .

Rosenbaum (2015) మరియు Hernán and Robins (2016) పెద్ద సమాచార వనరుల్లో ఉపయోగకరమైన పోలికలను తెలుసుకునేందుకు ఇతర సలహాలను అందిస్తున్నాయి.

Powered by Open Review Toolkit

Buy The Book

Image of Bit by Bit cover Princeton University Press Amazon Barnes and Noble IndieBound