Bit By Bit: Social Research in the Digital Age
  • ກ່ຽວກັບ
    • ເປີດການທົບທວນຄືນ
    • ການຂຽນກ່າວອ້າງ
    • ລະຫັດ
    • ກ່ຽວກັບຜູ້ຂຽນ
    • ຄວາມເປັນສ່ວນຕົວແລະການຍິນຍອມເຫັນດີ
  • ພາສາ
    • English
    • Afrikaans
    • Albanian
    • Amharic
    • Arabic
    • Armenian
    • Azerbaijani
    • Basque
    • Belarusian
    • Bengali
    • Bosnian
    • Bulgarian
    • Catalan
    • Cebuano
    • Chichewa
    • Chinese Simplified
    • Chinese Traditional
    • Corsican
    • Croatian
    • Czech
    • Danish
    • Dutch
    • Esperanto
    • Estonian
    • Filipino
    • Finnish
    • French
    • Frisian
    • Galician
    • Georgian
    • German
    • Greek
    • Gujarati
    • Haitian Creole
    • Hausa
    • Hawaiian
    • Hebrew
    • Hindi
    • Hmong
    • Hungarian
    • Icelandic
    • Igbo
    • Indonesian
    • Irish
    • Italian
    • Japanese
    • Javanese
    • Kannada
    • Kazakh
    • Khmer
    • Korean
    • Kurdish (Kurmanji)
    • Kyrgyz
    • Lao
    • Latin
    • Latvian
    • Lithuanian
    • Luxembourgish
    • Macedonian
    • Malagasy
    • Malay
    • Malayalam
    • Maltese
    • Maori
    • Marathi
    • Mongolian
    • Myanmar (Burmese)
    • Nepali
    • Norwegian
    • Pashto
    • Persian
    • Polish
    • Portuguese
    • Punjabi
    • Romanian
    • Russian
    • Samoan
    • Scots Gaelic
    • Serbian
    • Sesotho
    • Shona
    • Sindhi
    • Sinhala
    • Slovak
    • Slovenian
    • Somali
    • Spanish
    • Sudanese
    • Swahili
    • Swedish
    • Tajik
    • Tamil
    • Telugu
    • Thai
    • Turkish
    • Ukrainian
    • Urdu
    • Uzbek
    • Vietnamese
    • Welsh
    • Xhosa
    • Yiddish
    • Yoruba
    • Zulu
  • Teaching
  • Media
  • Read Online
  • ຊື້ຫນັງສື
    • Princeton University Press
    • Amazon
    • Barnes and Noble
    • IndieBound
  • ພາກສະເຫນີ
  • 1 ການນໍາສະເຫນີ
    • 1.1 ເປັນ blot ຫມຶກ
    • 1.2 ຍິນດີຕ້ອນຮັບອາຍຸສູງສຸດດິຈິຕອນ
    • 1.3 ການອອກແບບການວິໄຈ
    • 1.4 ຫົວຂໍ້ຂອງຫນັງສືເຫຼັ້ມນີ້
    • 1.5 ຂອງປຶ້ມນີ້
    • ສິ່ງທີ່ອ່ານຕໍ່ໄປ
  • 2 ພຶດຕິກໍາການສັງເກດ
    • 2.1 ການນໍາສະເຫນີ
    • 2.2 ຂໍ້ມູນທີ່ໃຫຍ່
    • 2.3 ລັກສະນະທົ່ວໄປຂອງສິບຂໍ້ມູນໃຫຍ່
      • 2.3.1 Big
      • 2.3.2 ສະເຫມີໄປ
      • 2.3.3 Nonreactive
      • 2.3.4 ບໍ່ຄົບຖ້ວນ
      • 2.3.5 ບໍ່ສາມາດເຂົ້າເຖິງໄດ້
      • 2.3.6 Nonrepresentative
      • 2.3.7 Drifting
      • 2.3.8 Algorithmically confounded
      • 2.3.9 ເປື້ອນ
      • 2.3.10 Sensitive
    • 2.4 ຍຸດທະສາດການຄົ້ນຄວ້າ
      • 2.4.1 ສິ່ງທີ່ນັບ
      • 2.4.2 ພະຢາກອນແລະ Nowcasting
      • 2.4.3 ປະສົບການປະມານ
    • 2.5 ສະຫຼຸບ
    • ບັນທຶກຄະນິດສາດ
    • ສິ່ງທີ່ອ່ານຕໍ່ໄປ
    • ກິດຈະກໍາ
  • 3 ຄໍາຖາມຖາມ
    • 3.1 ການນໍາສະເຫນີ
    • 3.2 ທຽບກັບການສັງເກດການ
    • 3.3 ຂອບຄວາມຜິດພາດການສໍາຫຼວດທັງຫມົດ
      • 3.3.1 ການເປັນຕົວແທນ
      • 3.3.2 ວັດ
      • 3.3.3 ຄ່າໃຊ້ຈ່າຍ
    • 3.4 ຜູ້ທີ່ຈະຮ້ອງຂໍໃຫ້
    • 3.5 ວິທີການໃຫມ່ຂອງການສະເຫນີຂໍຄໍາຖາມ
      • 3.5.1 ການປະເມີນຜົນ momentary ລະບົບນິເວດ
      • 3.5.2 ການສໍາຫຼວດວິກິພີເດຍ
      • 3.5.3 Gamification
    • 3.6 ການສໍາຫຼວດທີ່ກ່ຽວຂ້ອງກັບແຫຼ່ງຂໍ້ມູນໃຫຍ່
      • 3.6.1 Enriched asking
      • 3.6.2 ຮ້ອງຂໍຂະຫຍາຍ
    • 3.7 ສະຫຼຸບ
    • ບັນທຶກຄະນິດສາດ
    • ສິ່ງທີ່ອ່ານຕໍ່ໄປ
    • ກິດຈະກໍາ
  • 4 ປະສົບການເຮັດວຽກ
    • 4.1 ການນໍາສະເຫນີ
    • 4.2 ຈະເປັນແນວໃດການທົດລອງ?
    • 4.3 ທັງສອງຂະຫນາດຂອງປະສົບການ: ການທົດລອງພາກສະຫນາມແລະການປຽບທຽບ, ດິຈິຕອນ
    • 4.4 ການເຄື່ອນຍ້າຍຫຼັງຈາກປະສົບງ່າຍດາຍ
      • 4.4.1 ຕັ້ງແຕ່ວັນທີ່
      • 4.4.2 ທີ່ແຕກຕ່າງຂອງຜົນກະທົບການປິ່ນປົວ
      • 4.4.3 ກົນໄກ
    • 4.5 ການເຮັດໃຫ້ມັນເກີດຂຶ້ນ
      • 4.5.1 ໃຊ້ສະພາບແວດລ້ອມທີ່ມີຢູ່
      • 4.5.2 ສ້າງການທົດລອງຂອງທ່ານເອງ
      • 4.5.3 ສ້າງຜະລິດຕະພັນຂອງທ່ານເອງ
      • 4.5.4 ຄູ່ຮ່ວມງານທີ່ມີອໍານາດ
    • 4.6 ແນະນໍາ
      • 4.6.1 ສ້າງສູນຂໍ້ມູນຄ່າໃຊ້ຈ່າຍຂອງຕົວປ່ຽນແປງ
      • 4.6.2 ສ້າງຈັນຍາບັນໃນການອອກແບບຂອງທ່ານ: ແທນ, ປັບປຸງແລະຫຼຸດຜ່ອນ
    • 4.7 ສະຫຼຸບ
    • ບັນທຶກຄະນິດສາດ
    • ສິ່ງທີ່ອ່ານຕໍ່ໄປ
    • ກິດຈະກໍາ
  • 5 ການສ້າງການຮ່ວມມືຢ່າງຫຼວງຫຼາຍ
    • 5.1 ການນໍາສະເຫນີ
    • 5.2 ຄອມພິວເຕີຂອງມະນຸດ
      • 5.2.1 Zoo Galaxy
      • 5.2.2 ທີ່ແອອັດ, ການເຂົ້າລະຫັດຂອງ manifesto ທາງດ້ານການເມືອງ
      • 5.2.3 ສະຫຼຸບ
    • 5.3 ເປີດການໂທ
      • 5.3.1 ລາງວັນ Netflix
      • 5.3.2 Foldit
      • 5.3.3 Peer-to-ສິດທິບັດ
      • 5.3.4 ສະຫຼຸບ
    • 5.4 ເກັບກໍາຂໍ້ມູນການແຜ່ກະຈາຍ
      • 5.4.1 eBird
      • 5.4.2 PhotoCity
      • 5.4.3 ສະຫຼຸບ
    • 5.5 ການອອກແບບຂອງທ່ານເອງ
      • 5.5.1 ຜູ້ເຂົ້າຮ່ວມກະຕຸກຊຸກຍູ້
      • 5.5.2 heterogeneity Leverage
      • 5.5.3 ເອົາໃຈໃສ່ສຸມໃສ່ການ
      • 5.5.4 ເຮັດໃຫ້ແປກໃຈ
      • 5.5.5 ຈະລິຍະທໍາ
      • 5.5.6 ຄໍາແນະນໍາການອອກແບບສຸດທ້າຍ
    • 5.6 ສະຫຼຸບ
    • ສິ່ງທີ່ອ່ານຕໍ່ໄປ
    • ກິດຈະກໍາ
  • 6 ຈັນຍາບັນ
    • 6.1 ການນໍາສະເຫນີ
    • 6.2 ສາມຕົວຢ່າງ
      • 6.2.1 Contagion ອາລົມ
      • 6.2.2 ຄວາມສຸກ, ສາຍພົວ, ແລະເວລາ
      • 6.2.3 Encore
    • 6.3 ດິຈິຕອນທີ່ແຕກຕ່າງກັນ
    • 6.4 ສີ່ຫຼັກການພື້ນຖານ
      • 6.4.1 ເຄົາລົບສໍາລັບບຸກຄົນ
      • 6.4.2 Beneficence
      • 6.4.3 ຍຸຕິທໍາ
      • 6.4.4 ການເຄົາລົບກົດຫມາຍແລະການສາທາລະນະທີ່ຫນ້າສົນໃຈ
    • 6.5 ກອບດ້ານຈັນຍາບັນ
    • 6.6 ພື້ນທີ່ຂອງຄວາມຫຍຸ້ງຍາກ
      • 6.6.1 ຍິນຍອມເຫັນດີຂໍ້ມູນ
      • 6.6.2 ຄວາມເຂົ້າໃຈແລະການຄຸ້ມຄອງຄວາມສ່ຽງຕໍ່ການຂໍ້ມູນຂ່າວສານ
      • 6.6.3 ຄວາມເປັນສ່ວນຕົວ
      • 6.6.4 ການຕັດສິນໃຈເຮັດໃນໃບຫນ້າຂອງຄວາມບໍ່ແນ່ນອນ
    • 6.7 ເຄັດລັບພາກປະຕິບັດ
      • 6.7.1 ການ IRB ເປັນຊັ້ນ, ບໍ່ມີເພດານ
      • 6.7.2 ເອົາໃຈໃສ່ຕົວເອງໃນເກີບທຸກຄົນອື່ນ
      • 6.7.3 ຄິດຂອງຈະລິຍະທໍາການຄົ້ນຄວ້າຢ່າງຕໍ່ເນື່ອງ, ບໍ່ການຕັດສິນໃຈ
    • 6.8 ສະຫຼຸບ
    • ເອກະສານຊ້ອນປະຫວັດສາດ
    • ສິ່ງທີ່ອ່ານຕໍ່ໄປ
    • ກິດຈະກໍາ
  • 7 ໃນອະນາຄົດ
    • 7.1 Looking forward
    • 7.2 ທີມຂອງອະນາຄົດ
      • 7.2.1 ການຜະສົມຜະສານການ readymades ແລະ custommades
      • 7.2.2 ເກັບກໍາຂໍ້ມູນຂອງຜູ້ເຂົ້າຮ່ວມເປັນຈຸດສູນກາງ
      • 7.2.3 ຈັນຍາບັນໃນການອອກແບບການວິໄຈ
    • 7.3 ກັບຄືນໄປບ່ອນການເລີ່ມຕົ້ນ
  • ຂອບໃຈ
  • ເອກະສານ
ການແປພາສານີ້ໄດ້ສ້າງຕັ້ງຂື້ນໂດຍຄອມພິວເຕີ. ×

ສິ່ງທີ່ອ່ານຕໍ່ໄປ

  • ການແນະນໍາ (ພາກ 2.1)

ປະເພດຫນຶ່ງຂອງການສັງເກດວ່າບໍ່ໄດ້ຖືກລວມຢູ່ໃນພາກນີ້ແມ່ນ ethnography. ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບນິພົນສາດໃນສະຖານທີ່ດິຈິຕອນ, ເບິ່ງ Boellstorff et al. (2012) , ແລະສໍາລັບປະເທດອື່ນໆກ່ຽວກັບປະຫວັດສາດໃນພື້ນທີ່ດິຈິຕອນແລະທາງດ້ານຮ່າງກາຍ, ເບິ່ງ Lane (2016) .

  • ຂໍ້ມູນໃຫຍ່ (ພາກ 22)

ບໍ່ມີຄໍານິຍາມທີ່ເປັນເອກະສັນດຽວຂອງ "ຂໍ້ມູນຂະຫນາດໃຫຍ່" ແຕ່ຄໍານິຍາມຫຼາຍເບິ່ງຄືວ່າຈະສຸມໃສ່ "3 Vs": ປະລິມານ, ຄວາມຫຼາກຫຼາຍແລະຄວາມໄວ (ເຊັ່ນ Japec et al. (2015) ). ເບິ່ງ De Mauro et al. (2015) ສໍາລັບການທົບທວນຄືນຄໍານິຍາມ.

ການລວມເອົາຂໍ້ມູນການບໍລິຫານຂອງລັດໃນປະເພດຂອງຂໍ້ມູນໃຫຍ່ແມ່ນຜິດປົກກະຕິ, ເຖິງແມ່ນວ່າຄົນອື່ນໄດ້ເຮັດກໍລະນີນີ້, ລວມທັງ Legewie (2015) , Connelly et al. (2016) , ແລະ Einav and Levin (2014) . ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບມູນຄ່າຂອງຂໍ້ມູນການບໍລິຫານຂອງລັດຖະບານສໍາລັບການຄົ້ນຄວ້າ, ເບິ່ງ Card et al. (2010) , Adminstrative Data Taskforce (2012) , ແລະ Grusky, Smeeding, and Snipp (2015) .

ສໍາລັບທັດສະນະຂອງການຄົ້ນຄວ້າດ້ານການບໍລິຫານຈາກລະບົບສະຖິຕິຂອງລັດຖະບານ, ໂດຍສະເພາະແມ່ນສໍານັກງານສໍາຫຼວດສໍາຫຼວດສະຫະລັດ, ເບິ່ງ Jarmin and O'Hara (2016) . ສໍາລັບການສໍາຫຼວດໄລຍະຍາວຂອງການຄົ້ນຄວ້າການບັນທຶກການບໍລິຫານຢູ່ສະຖິຕິສວັດ, ເບິ່ງ Wallgren and Wallgren (2007) .

ໃນບົດນີ້, ຂ້າພະເຈົ້າໄດ້ປຽບທຽບການສໍາຫຼວດແບບດັ້ງເດີມເຊັ່ນການສໍາຫລວດສັງຄົມທົ່ວໄປ (GSS) ກັບແຫຼ່ງຂໍ້ມູນສື່ສັງຄົມເຊັ່ນ Twitter. ສໍາລັບການສົມທຽບຢ່າງລະອຽດແລະລະມັດລະວັງລະຫວ່າງການສໍາຫຼວດແບບດັ້ງເດີມແລະຂໍ້ມູນສື່ສັງຄົມ, ເບິ່ງ Schober et al. (2016)

  • ລັກສະນະທົ່ວໄປຂອງຂໍ້ມູນທີ່ໃຫຍ່ (ພາກ 2.3)

ເຫຼົ່ານີ້ 10 ລັກສະນະຂອງຂໍ້ມູນຂະຫນາດໃຫຍ່ໄດ້ຖືກອະທິບາຍໃນແນວພັນທີ່ແຕກຕ່າງກັນໂດຍຜູ້ຂຽນຕ່າງໆ. ຂຽນວ່າມີອິດທິພົນຕໍ່ການຄິດຂອງຂ້ອຍກ່ຽວກັບບັນຫາເຫລົ່ານີ້ລວມທັງ Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , ແລະ Goldstone and Lupyan (2016) .

ຕະຫຼອດພາກນີ້, ຂ້າພະເຈົ້າໄດ້ໃຊ້ຖ້ອຍຄໍາຂອງ ດິຈິຕອນ , ເຊິ່ງຂ້າພະເຈົ້າຄິດວ່າມັນແມ່ນຂ້ອນຂ້າງເປັນກາງ. ອີກປະການຫນຶ່ງທີ່ສໍາຄັນສໍາລັບການຕິດຕາມດິຈິຕອນແມ່ນການຕິດຕາມ ດິຈິຕອນ (Golder and Macy 2014) , ແຕ່ວ່າໃນຖານະເປັນ Hal Abelson, Ken Ledeen ແລະ Harry Lewis (2008) ຊີ້ໃຫ້ເຫັນວ່າໄລຍະທີ່ເຫມາະສົມແມ່ນ digital fingerprints . ໃນເວລາທີ່ທ່ານສ້າງ footprints, ທ່ານຮູ້ເຖິງສິ່ງທີ່ເກີດຂຶ້ນແລະຮອຍຕີນຂອງທ່ານກໍ່ບໍ່ສາມາດສືບທອດຕົວທ່ານເອງ. ດຽວກັນບໍ່ແມ່ນຄວາມຈິງສໍາລັບການຕິດຕາມດິຈິຕອນຂອງທ່ານ. ໃນຄວາມເປັນຈິງ, ທ່ານກໍາລັງເຮັດໃຫ້ຕາມຮອຍທັງຫມົດທີ່ໃຊ້ເວລາກ່ຽວກັບການທີ່ທ່ານມີຄວາມຮູ້ຫນ້ອຍຫຼາຍ. ແລະ, ເຖິງແມ່ນວ່າການຕິດຕາມເຫຼົ່ານີ້ບໍ່ມີຊື່ຂອງທ່ານຢູ່ກັບພວກເຂົາ, ພວກເຂົາເຈົ້າກໍ່ສາມາດເຊື່ອມຕໍ່ກັບທ່ານອີກເທື່ອຫນຶ່ງ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ພວກເຂົາແມ່ນຄ້າຍຄື fingerprints: ເບິ່ງບໍ່ເຫັນແລະກໍານົດສ່ວນບຸກຄົນ.

  • ໃຫຍ່ (ພາກ 231)

ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ທີ່ເຮັດໃຫ້ການທົດສອບທາງສະຖິຕິມີບັນຫາ, ເບິ່ງ M. Lin, Lucas, and Shmueli (2013) ແລະ McFarland and McFarland (2015) . ບັນຫາເຫຼົ່ານີ້ຄວນເຮັດໃຫ້ນັກຄົ້ນຄ້ວາສຸມໃສ່ຄວາມສໍາຄັນທາງດ້ານປະຕິບັດແທນທີ່ຈະເປັນຄວາມສໍາຄັນທາງສະຖິຕິ.

ສໍາລັບເພີ່ມເຕີມກ່ຽວກັບວິທີການ Raj Chetty ແລະເພື່ອນຮ່ວມງານໄດ້ຮັບການເຂົ້າເຖິງບັນທຶກການເກັບພາສີ, ເບິ່ງ Mervis (2014) .

ຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ຍັງສາມາດສ້າງບັນຫາຄອມພິວເຕີທີ່ທົ່ວໄປນອກເຫນືອຈາກຄວາມສາມາດຂອງຄອມພິວເຕີ້ດຽວ. ດັ່ງນັ້ນ, ນັກຄົ້ນຄວ້າທີ່ເຮັດຄອມພິວເຕີ້ໃນຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ມັກຈະແຜ່ຂະຫຍາຍວຽກງານຫຼາຍກວ່າຄອມພິວເຕີ້ຫຼາຍ, ຂະບວນການທີ່ບາງຄັ້ງເອີ້ນວ່າ ການຂຽນໂປແກຼມຂະຫນານ . ສໍາລັບການແນະນໍາການຂຽນໂປແກຼມໂດຍກົງ, ໂດຍສະເພາະພາສາທີ່ເອີ້ນວ່າ Hadoop, ເບິ່ງ Vo and Silvia (2016) .

  • ສະເຫມີໄປ (ພາກ 2.3.2)

ເມື່ອພິຈາລະນາຂໍ້ມູນສະເຫມີໄປ, ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະພິຈາລະນາວ່າທ່ານກໍາລັງປຽບທຽບຄົນດຽວກັນກັບເວລາຫຼືວ່າທ່ານກໍາລັງປຽບທຽບກຸ່ມຄົນທີ່ມີການປ່ຽນແປງ; ເບິ່ງຕົວຢ່າງ, Diaz et al. (2016)

  • Nonreactive (ພາກ ວິນາທີ: ບໍ່ມີຜົນກະທົບ? )

ປື້ມແບບຄລາສສິກກ່ຽວກັບມາດຕະການທີ່ບໍ່ມີການປະຕິບັດແມ່ນ Webb et al. (1966) ຕົວຢ່າງໃນປຶ້ມນັ້ນລ່ວງຫນ້າກັບອາຍຸຂອງດິຈິຕອນ, ແຕ່ພວກເຂົາຍັງສະຫວ່າງ. ສໍາລັບຕົວຢ່າງຂອງຄົນທີ່ມີການປ່ຽນແປງພຶດຕິກໍາຂອງເຂົາເຈົ້າຍ້ອນວ່າມີການເຝົ້າລະວັງມະຫາຊົນ, ເບິ່ງ Penney (2016) ແລະ Brayne (2014) .

ຜົນກະທົບແມ່ນກ່ຽວຂ້ອງຢ່າງໃກ້ຊິດກັບສິ່ງທີ່ນັກຄົ້ນຄວ້າເອີ້ນວ່າຜົນກະທົບດ້ານຄວາມຕ້ອງການ (Orne 1962; Zizzo 2010) ແລະຜົນກະທົບຂອງ Hawthorne (Adair 1984; Levitt and List 2011) .

  • ບໍ່ຄົບຖ້ວນ (ພາກ 2.3.4)

ສໍາລັບເພີ່ມເຕີມກ່ຽວກັບການເຊື່ອມຕໍ່ການບັນທຶກ, ເບິ່ງ Dunn (1946) ແລະ Fellegi and Sunter (1969) (ປະຫວັດສາດ) ແລະ Larsen and Winkler (2014) (ທີ່ທັນສະໄຫມ). ວິທີການທີ່ຄ້າຍຄືກັນຍັງໄດ້ຮັບການພັດທະນາໃນວິທະຍາສາດຄອມພິວເຕີຢູ່ພາຍໃຕ້ຊື່ເຊັ່ນ: ການຖອນຂໍ້ມູນ, ການກໍານົດຕົວຕົນ, ການຈັບຄູ່ຊື່, ການຊອກຄົ້ນຫາຊ້ໍາແລະການຊອກຄົ້ນຫາແບບຊ້ອນກັນ (Elmagarmid, Ipeirotis, and Verykios 2007) . ຍັງມີວິທີການປົກປັກຮັກສາຄວາມເປັນສ່ວນຕົວເພື່ອບັນທຶກການເຊື່ອມຕໍ່ທີ່ບໍ່ຈໍາເປັນຕ້ອງໄດ້ສົ່ງຂໍ້ມູນສ່ວນບຸກຄົນທີ່ກໍານົດ (Schnell 2013) . ເຟສບຸກຍັງໄດ້ພັດທະນາຂະບວນການທີ່ຈະເຊື່ອມຕໍ່ບັນທຶກຂອງເຂົາເຈົ້າກັບພຶດຕິກໍາການເລືອກຕັ້ງ; ນີ້ໄດ້ເຮັດເພື່ອປະເມີນຜົນທົດລອງທີ່ຂ້ອຍຈະບອກທ່ານກ່ຽວກັບບົດທີ 4 (Bond et al. 2012; Jones et al. 2013) .

ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບຄວາມຖືກຕ້ອງຂອງການກໍ່ສ້າງ, ເບິ່ງບົດທີ 3 ຂອງ Shadish, Cook, and Campbell (2001) .

  • ບໍ່ສາມາດເຂົ້າເຖິງໄດ້ (ພາກ 2.3.5)

ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບບັນທຶກການຄົ້ນຫາຂອງ AOL, ເບິ່ງ Ohm (2010) . ຂ້ອຍສະເຫນີຄໍາແນະນໍາກ່ຽວກັບການຮ່ວມມືກັບບໍລິສັດແລະລັດຖະບານໃນພາກ 4 ໃນເວລາທີ່ຂ້ອຍອະທິບາຍການທົດລອງ. ຜູ້ຂຽນຈໍານວນຫນຶ່ງສະແດງຄວາມກັງວົນກ່ຽວກັບການຄົ້ນຄວ້າທີ່ອີງໃສ່ຂໍ້ມູນທີ່ບໍ່ສາມາດເຂົ້າເຖິງໄດ້, ເບິ່ງ Huberman (2012) ແລະ boyd and Crawford (2012) .

ຫນຶ່ງວິທີທີ່ດີສໍາລັບການຄົ້ນຄ້ວາວິທະຍາໄລທີ່ຈະໄດ້ຮັບການເຂົ້າເຖິງຂໍ້ມູນທີ່ຈະເຮັດວຽກຢູ່ໃນບໍລິສັດເປັນນັກຮຽນຝຶກຫັດຫຼືການຢ້ຽມຢາມນັກຄົ້ນຄວ້າ. ນອກເຫນືອໄປຈາກການເຮັດໃຫ້ການເຂົ້າເຖິງຂໍ້ມູນ, ຂະບວນການນີ້ຍັງຈະຊ່ວຍໃຫ້ນັກຄົ້ນຄວ້າໄດ້ຮຽນຮູ້ເພີ່ມເຕີມກ່ຽວກັບວິທີການຂໍ້ມູນດັ່ງກ່າວໄດ້ຖືກສ້າງຂຶ້ນ, ທີ່ເປັນສິ່ງສໍາຄັນສໍາລັບການວິເຄາະ.

ກ່ຽວກັບການເຂົ້າເຖິງຂໍ້ມູນຂອງລັດຖະບານ, Mervis (2014) ປຶກສາຫາລືກ່ຽວກັບວິທີການ Raj Chetty ແລະເພື່ອນຮ່ວມງານໄດ້ເຂົ້າເຖິງບັນທຶກການເກັບພາສີທີ່ນໍາໃຊ້ໃນການຄົ້ນຄວ້າຂອງເຂົາເຈົ້າກ່ຽວກັບການເຄື່ອນຍ້າຍທາງດ້ານສັງຄົມ.

  • ຜູ້ຕາງຫນ້າທີ່ບໍ່ແມ່ນຜູ້ຕາງຫນ້າ (sec: non-representative)

ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບປະຫວັດຂອງ "ການເປັນຕົວແທນ" ເປັນແນວຄິດ, ເບິ່ງ Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , ແລະ Kruskal and Mosteller (1980) .

ບົດສະຫຼຸບຂອງວຽກງານຂອງ Snow ແລະວຽກງານຂອງ Doll ແລະ Hill ແມ່ນສັ້ນ. ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບວຽກງານຂອງຫິມະກ່ຽວກັບພະຍາດໂຣກ, ເບິ່ງ Freedman (1991) . ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບການສຶກສາແພດຫມໍອັງກິດເບິ່ງ Doll et al. (2004) ແລະ Keating (2014) .

ນັກຄົ້ນຄວ້າຈໍານວນຫຼາຍຈະປະຫລາດໃຈທີ່ຮູ້ວ່າເຖິງວ່າ Doll and Hill ໄດ້ເກັບຂໍ້ມູນຈາກແພດຫມໍຍິງແລະຈາກທ່ານຫມໍທີ່ມີອາຍຸຕໍ່າກວ່າ 35 ປີແລ້ວ, ພວກເຂົາເຈົ້າບໍ່ໄດ້ນໍາໃຊ້ຂໍ້ມູນນີ້ໃນການວິເຄາະຄັ້ງທໍາອິດຂອງພວກເຂົາ. ໃນຂະນະທີ່ພວກເຂົາໄດ້ໂຕ້ຖຽງວ່າ: "ນັບຕັ້ງແຕ່ການເປັນມະເຮັງປອດແມ່ນຫາຍາກສໍາລັບແມ່ຍິງແລະຜູ້ຊາຍທີ່ມີອາຍຸຕໍ່າກວ່າ 35 ປີ, ຕົວເລກທີ່ເປັນປະໂຫຍດບໍ່ສາມາດໄດ້ຮັບໃນກຸ່ມເຫຼົ່ານີ້ສໍາລັບບາງປີຕໍ່ມາ. Rothman, Gallacher, and Hatch (2013) , ເຊິ່ງມີຊື່ວ່າ "ການເປັນຕົວແທນຄວນຈະຫຼີກລ້ຽງ," ເຮັດໃຫ້ການໂຕ້ຖຽງທົ່ວໄປສໍາລັບມູນຄ່າຂອງ intentionally ສ້າງຂໍ້ມູນທີ່ບໍ່ແມ່ນຕົວແທນ.

ການບໍ່ເປັນຕົວແທນແມ່ນບັນຫາສໍາຄັນສໍາລັບນັກຄົ້ນຄວ້າແລະລັດຖະບານທີ່ຕ້ອງການລາຍງານກ່ຽວກັບປະຊາກອນທັງຫມົດ. ນີ້ແມ່ນຫນ້ອຍຂອງຄວາມກັງວົນສໍາລັບບໍລິສັດ, ເຊິ່ງໂດຍປົກກະຕິແມ່ນສຸມໃສ່ຜູ້ໃຊ້ຂອງພວກເຂົາ. ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບວິທີການສະຖິຕິເນເທີແລນໄດ້ພິຈາລະນາບັນຫາການບໍ່ປະສົບຜົນສໍາເລັດຂອງຂໍ້ມູນຂະຫນາດໃຫຍ່ຂອງທຸລະກິດ, ເບິ່ງ Buelens et al. (2014) .

ສໍາລັບຕົວຢ່າງຂອງນັກຄົ້ນຄວ້າສະແດງຄວາມກັງວົນກ່ຽວກັບລັກສະນະທີ່ບໍ່ເປັນຕົວແທນຂອງແຫຼ່ງຂໍ້ມູນໃຫຍ່, ເບິ່ງ boyd and Crawford (2012) , K. Lewis (2015b) , ແລະ Hargittai (2015) .

ສໍາລັບການປຽບທຽບລະອຽດກ່ຽວກັບເປົ້າຫມາຍຂອງການສໍາຫຼວດທາງສັງຄົມແລະການຄົ້ນຄວ້າພິເສດ, ເບິ່ງ Keiding and Louis (2016) .

ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບຄວາມພະຍາຍາມທີ່ຈະນໍາໃຊ້ Twitter ເພື່ອສ້າງຄວາມນິຍົມທົ່ວໄປກ່ຽວກັບຜູ້ລົງຄະແນນສຽງ, ໂດຍສະເພາະກໍລະນີຈາກການເລືອກຕັ້ງຂອງເຢຍລະມັນ 2009, ເບິ່ງ Jungherr (2013) ແລະ Jungherr (2015) . ຫຼັງຈາກການເຮັດວຽກຂອງ Tumasjan et al. (2010) ນັກຄົ້ນຄວ້າທົ່ວໂລກໄດ້ນໍາໃຊ້ວິທີການທີ່ຫນ້າຢ້ານກົວ - ເຊັ່ນການນໍາໃຊ້ການວິເຄາະຄວາມຮູ້ສຶກເພື່ອແຍກແຍະລະຫວ່າງຄໍາແນະນໍາໃນທາງບວກແລະລົບຂອງພາກສ່ວນຕ່າງໆ - ເພື່ອປັບປຸງຄວາມສາມາດຂອງຂໍ້ມູນ Twitter ໃນການຄາດເດົາປະເພດຕ່າງໆຂອງການເລືອກຕັ້ງ (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . ນີ້ແມ່ນວິທີການ Huberty (2015) ສະຫຼຸບຜົນຂອງຄວາມພະຍາຍາມເຫຼົ່ານີ້ເພື່ອຄາດການການເລືອກຕັ້ງ:

"ວິທີການຄາດຄະເນທັງຫມົດທີ່ຮູ້ມາໂດຍອີງໃສ່ສື່ມວນຊົນສັງຄົມໄດ້ລົ້ມເຫຼວໃນເວລາທີ່ຖືກຕ້ອງຕາມຄວາມຕ້ອງການຂອງການຄາດຄະເນການເລືອກຕັ້ງທີ່ມີຄວາມຄາດຫວັງແບບໃຫມ່. ຄວາມລົ້ມເຫຼວເຫຼົ່ານີ້ເບິ່ງຄືວ່າມີຄຸນສົມບັດພື້ນຖານຂອງສື່ມວນຊົນສັງຄົມ, ແທນທີ່ຈະມີຄວາມຫຍຸ້ງຍາກທາງວິຊາການຫຼືທາງວິຊາການ. ໃນສັ້ນ, ສື່ມວນຊົນສັງຄົມບໍ່, ແລະອາດຈະບໍ່, ຈະສະຫນອງຮູບພາບທີ່ມີຄວາມຫມັ້ນຄົງ, ບໍ່ສະເຫມີພາບ, ເປັນຕົວແທນຂອງຜູ້ເລືອກຕັ້ງ; ແລະຕົວຢ່າງຄວາມສະດວກສະບາຍຂອງສື່ສັງຄົມບໍ່ມີຂໍ້ມູນພຽງພໍເພື່ອແກ້ໄຂບັນຫາເຫລົ່ານີ້. "

ໃນພາກທີ 3, ຂ້ອຍຈະອະທິບາຍຕົວຢ່າງແລະການຄາດຄະເນໃນລາຍລະອຽດຫຼາຍຂຶ້ນ. ເຖິງແມ່ນວ່າຂໍ້ມູນບໍ່ແມ່ນຕົວແທນ, ພາຍໃຕ້ເງື່ອນໄຂບາງຢ່າງ, ພວກເຂົາສາມາດຖືກນ້ໍາຫນັກເພື່ອຜະລິດປະມານການທີ່ດີ.

  • Drifting (ພາກສ່ວນ sec: drifting? )

ຄວາມຫຼາກຫຼາຍຂອງລະບົບແມ່ນຍາກທີ່ຈະເບິ່ງຈາກພາຍນອກ. ຢ່າງໃດກໍ່ຕາມ, ໂຄງການ MovieLens (ພິຈາລະນາໃນພາກ 4) ໄດ້ດໍາເນີນການຫຼາຍກວ່າ 15 ປີໂດຍກຸ່ມວິຊາການດ້ານວິຊາການ. ດັ່ງນັ້ນ, ພວກເຂົາເຈົ້າສາມາດຈັດພິມເອກະສານແລະແລກປ່ຽນຂໍ້ມູນກ່ຽວກັບວິທີການທີ່ລະບົບໄດ້ມີການພັດທະນາໃນໄລຍະເວລາແລະວິທີການນີ້ອາດຈະມີຜົນກະທົບຕໍ່ການວິເຄາະ (Harper and Konstan 2015) .

ນັກວິຊາການຈໍານວນຫນຶ່ງໄດ້ສຸມໃສ່ການລອຍຕົວໃນ Twitter: Liu, Kliman-Silver, and Mislove (2014) ແລະ Tufekci (2014) .

ວິທີຫນຶ່ງໃນການຈັດການກັບການຫຼີ້ນຂອງປະຊາກອນແມ່ນເພື່ອສ້າງກຸ່ມຜູ້ໃຊ້ທີ່ອະນຸຍາດໃຫ້ນັກຄົ້ນຄວ້າສຶກສາຄົນດຽວກັນໃນໄລຍະເວລາ, ເບິ່ງ Diaz et al. (2016)

  • ສັບສົນ algorithmically (ພາກ ວິນາທີ: algorthmically, confounded? )

ຂ້າພະເຈົ້າໄດ້ຍິນຄັ້ງທໍາອິດວ່າຄໍາສັບ "ສັບສົນຕາມລະບົບ" ທີ່ Jon Kleinberg ໃຊ້ໃນການສົນທະນາແຕ່ຫນ້າເສຍດາຍຂ້າພະເຈົ້າບໍ່ຈໍາໄວ້ວ່າເວລາຫລືບ່ອນທີ່ສົນທະນາໄດ້ຖືກມອບໃຫ້. ຄັ້ງທໍາອິດທີ່ຂ້າພະເຈົ້າໄດ້ເຫັນໃນໄລຍະນີ້ແມ່ນຢູ່ໃນ Anderson et al. (2015) , ເຊິ່ງເປັນການສົນທະນາທີ່ຫນ້າສົນໃຈກ່ຽວກັບວິທີການໃຊ້ວິທີການນໍາໃຊ້ໂດຍສະຖານທີ່ dating ອາດເຮັດໃຫ້ຜູ້ໃຊ້ສາມາດນໍາໃຊ້ຂໍ້ມູນຈາກເວັບໄຊທ໌ເຫຼົ່ານີ້ເພື່ອສຶກສາຄວາມຕ້ອງການທາງສັງຄົມ. ຄວາມກັງວົນນີ້ໄດ້ຖືກຍົກຂຶ້ນມາໂດຍ K. Lewis (2015a) ເພື່ອຕອບສະຫນອງຕໍ່ Anderson et al. (2014) .

ນອກເຫນືອໄປຈາກເຟສບຸກ, Twitter ຍັງແນະນໍາໃຫ້ປະຊາຊົນສໍາລັບຜູ້ໃຊ້ໃຫ້ຕິດຕາມໂດຍອີງໃສ່ຄວາມຄິດຂອງການປິດສາມຫຼ່ຽມ; ເບິ່ງ Su, Sharma, and Goel (2016) . ດັ່ງນັ້ນ, ລະດັບຂອງການປິດ triadic ໃນ Twitter ແມ່ນການປະສົມປະສານຂອງແນວໂນ້ມຂອງມະນຸດບາງຢ່າງຕໍ່ກັບການປິດ triadic ແລະແນວໂນ້ມການວິທີການບາງຢ່າງເພື່ອສົ່ງເສີມການປິດສາມຫຼ່ຽມ.

ສໍາລັບຫຼາຍປະສົບການກ່ຽວກັບການປະຕິບັດ, ໂດຍສະເພາະຄວາມຄິດທີ່ວ່າທິດສະດີວິທະຍາສາດສັງຄົມບາງແມ່ນ "ເຄື່ອງຈັກບໍ່ແມ່ນກ້ອງ" (ເຊັ່ນ, ພວກເຂົາຮູບຮ່າງໂລກແທນທີ່ຈະພຽງແຕ່ອະທິບາຍມັນ) -see Mackenzie (2008) .

  • ເປື້ອນ (ພາກ 239)

ອົງການສະຖິຕິລັດຖະບານໂທຫາຂໍ້ ມູນການແກ້ໄຂຂໍ້ມູນສະຖິຕິສະຖິຕິ . De Waal, Puts, and Daas (2014) ອະທິບາຍເຕັກນິກການດັດແກ້ຂໍ້ມູນສະຖິຕິທີ່ຖືກພັດທະນາສໍາລັບຂໍ້ມູນການສໍາຫຼວດແລະກວດສອບຂອບເຂດທີ່ພວກເຂົາສາມາດນໍາໃຊ້ກັບແຫລ່ງຂໍ້ມູນທີ່ໃຫຍ່ແລະ Puts, Daas, and Waal (2015) ຜູ້ຊົມທົ່ວໄປຫຼາຍ.

ສໍາລັບສະພາບລວມຂອງ bots ສັງຄົມ, ເບິ່ງ Ferrara et al. (2016) ສໍາລັບບາງຕົວຢ່າງຂອງການສຶກສາສຸມໃສ່ການຊອກຫາຂີ້ເຫຍື້ອໃນ Twitter, ເບິ່ງ Clark et al. (2016) ແລະ Chu et al. (2012) ສຸດທ້າຍ, Subrahmanian et al. (2016) ອະທິບາຍຜົນຂອງການທ້າທາຍ DARPA Twitter Bot, ການຮ່ວມມືມວນຊົນທີ່ຖືກອອກແບບມາເພື່ອປຽບທຽບວິທີການຊອກຫາບັອດໃນ Twitter.

  • ລະອຽດອ່ອນ (ພາກ 2.3.10)

Ohm (2015) ທົບທວນຄືນການຄົ້ນຄວ້າກ່ອນຫນ້ານີ້ກ່ຽວກັບຄວາມຄິດຂອງຂໍ້ມູນທີ່ລະອຽດອ່ອນແລະມີການທົດສອບຫຼາຍປັດໃຈ. ປັດໄຈສີ່ທີ່ລາວສະເຫນີແມ່ນຄວາມຮ້າຍແຮງຂອງຄວາມເປັນອັນຕະລາຍ, ຄວາມເປັນໄປໄດ້ຂອງຄວາມອັນຕະລາຍ, ການມີຄວາມສໍາພັນທີ່ເປັນຄວາມລັບ, ແລະຄວາມສ່ຽງທີ່ສະແດງໃຫ້ເຫັນເຖິງຄວາມກັງວົນຫລາຍທີ່ສຸດ.

  • ການນັບສິ່ງຕ່າງໆ (ພາກ 24.1)

ການສຶກສາຂອງ Farber ກ່ຽວກັບ taxis ໃນນິວຢອກແມ່ນອີງໃສ່ການສຶກສາກ່ອນໂດຍ Camerer et al. (1997) ທີ່ນໍາໃຊ້ຕົວຢ່າງຄວາມສະດວກສະບາຍຕ່າງໆທີ່ແຕກຕ່າງກັນຂອງແຜ່ນເຈ້ຍ. ການສຶກສາກ່ອນຫນ້ານີ້ໄດ້ພົບເຫັນວ່າຜູ້ຂັບຂີ່ເບິ່ງຄືວ່າຈະເປັນຜູ້ທີ່ມີລາຍໄດ້ເປົ້າຫມາຍ: ພວກເຂົາເຮັດວຽກຫນ້ອຍລົງໃນມື້ທີ່ເງິນຄ່າແຮງງານຂອງພວກເຂົາສູງຂຶ້ນ.

ໃນການເຮັດວຽກຕໍ່ໄປ, ທ່ານ King ແລະເພື່ອນຮ່ວມງານໄດ້ຄົ້ນຄວ້າສືບຕໍ່ການຄວບຄຸມແບບອອນໄລນ໌ໃນປະເທດຈີນ (King, Pan, and Roberts 2014, [@king_how_2016] ) . ສໍາລັບວິທີການທີ່ກ່ຽວຂ້ອງກັບການວັດແທກການກວດສອບອອນໄລນ໌ໃນປະເທດຈີນ, ເບິ່ງ Bamman, O'Connor, and Smith (2012) . ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບວິທີການສະຖິຕິເຊັ່ນການນໍາໃຊ້ໃນ King, Pan, and Roberts (2013) ເພື່ອປະເມີນຄວາມຮູ້ສຶກຂອງ 11 ລ້ານໂພສ, ເບິ່ງ Hopkins and King (2010) . ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບການຮຽນການເບິ່ງແຍງ, ເບິ່ງ James et al. (2013) (ຫນ້ອຍທາງດ້ານເທກນິກ) ແລະ Hastie, Tibshirani, and Friedman (2009) (ເຕັກນິກຫຼາຍ).

  • ການຄາດຄະເນແລະ nowcasting (ພາກ 2.4.2)

ການຄາດຄະເນແມ່ນສ່ວນໃຫຍ່ຂອງວິທະຍາສາດຂໍ້ມູນອຸດສາຫະກໍາ (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . ປະເພດຫນຶ່ງຂອງການຄາດຄະເນທີ່ປະຕິບັດໂດຍທົ່ວໄປໂດຍນັກຄົ້ນຄວ້າສັງຄົມແມ່ນການຄາດຄະເນປະຊາກອນ; ເບິ່ງ, ຍົກຕົວຢ່າງ, Raftery et al. (2012)

Google Flu Trends ບໍ່ໄດ້ເປັນໂຄງການທໍາອິດທີ່ນໍາໃຊ້ຂໍ້ມູນການຄົ້ນຫາເພື່ອການເຕີບໂຕຂອງໂລກໄຂ້ຫວັດໃຫຍ່ nowign. ໃນຄວາມເປັນຈິງ, ນັກຄົ້ນຄວ້າໃນສະຫະລັດອາເມລິກາ (Polgreen et al. 2008; Ginsberg et al. 2009) ແລະສວີເດນ (Hulth, Rydevik, and Linde 2009) ໄດ້ຄົ້ນພົບວ່າຄໍາຄົ້ນຫາບາງຢ່າງ (ເຊັ່ນ "ໄຂ້ຫວັດໃຫຍ່") ຂໍ້ມູນກ່ອນທີ່ມັນຈະຖືກປ່ອຍອອກມາ. ຫຼັງຈາກນັ້ນ, ຫຼາຍໆໂຄງການອື່ນໆໄດ້ພະຍາຍາມນໍາໃຊ້ຂໍ້ມູນການຕິດຕາມດິຈິຕອນສໍາລັບການກວດສອບການຕິດຕາມກວດກາພະຍາດ; ເບິ່ງ Althouse et al. (2015) ສໍາລັບການທົບທວນຄືນ.

ນອກເຫນືອຈາກການນໍາໃຊ້ຂໍ້ມູນຂໍ້ມູນດັກດິຈິຕອນເພື່ອຄາດຄະເນຜົນໄດ້ຮັບດ້ານສຸຂະພາບແລ້ວ, ຍັງມີຈໍານວນການເຮັດວຽກທີ່ໃຊ້ຂໍ້ມູນ Twitter ທີ່ຄາດຄະເນຜົນສໍາເລັດໃນການເລືອກຕັ້ງ; ສໍາລັບການທົບທວນເບິ່ງ Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (ບົດທີ 7), ແລະ Huberty (2015) . ການເຕີບໂຕຂອງຕົວຊີ້ວັດດ້ານເສດຖະກິດ, ເຊັ່ນ: ຜະລິດຕະພັນພາຍໃນລວມ (GDP), ຍັງເປັນສາມັນທີ່ຢູ່ໃນທະນາຄານກາງ, ເບິ່ງ Bańbura et al. (2013) ຕາຕະລາງ 2.8 ປະກອບມີຕົວຢ່າງບາງຢ່າງຂອງການສຶກສາທີ່ໃຊ້ປະເພດໃດຫນຶ່ງຂອງການຕິດຕາມດິຈິຕອນເພື່ອຄາດຄະເນບາງປະເພດຂອງເຫດການໃນໂລກ.

ຕາຕະລາງ 2.8: ການສຶກສາທີ່ນໍາໃຊ້ແຫຼ່ງຂໍ້ມູນໃຫຍ່ເພື່ອຄາດເດົາເຫດການບາງຢ່າງ
Digital trace ຜົນໄດ້ຮັບ ການອ້າງອິງ
Twitter ອັດຕາພາສີຂອງຫນັງເລື່ອງພາພະຍົນໃນສະຫະລັດ Asur and Huberman (2010)
ປື້ມຊອກຫາ ການຂາຍຫນັງສື, ດົນຕີ, ປຶ້ມ, ແລະເກມວີດີໂອໃນສະຫະລັດ Goel et al. (2010)
Twitter Dow Jones Industrial Average (ຕະຫຼາດຫຼັກຊັບສະຫະລັດ) Bollen, Mao, and Zeng (2011)
ສື່ສັງຄົມແລະບັນທຶກການຊອກຫາ ການສໍາຫຼວດຄວາມໃຈບຸນຂອງນັກລົງທຶນແລະຕະຫຼາດຫຼັກຊັບໃນສະຫະລັດອາເມລິກາ, ອັງກິດ, ການາດາແລະຈີນ Mao et al. (2015)
ປື້ມຊອກຫາ ການແຜ່ກະຈາຍຂອງພະຍາດໄຂ້ເລືອດອອກໃນສິງກະໂປແລະກຸງເທບມະຫານະຄອນ Althouse, Ng, and Cummings (2011)

ໃນທີ່ສຸດ, Jon Kleinberg ແລະເພື່ອນຮ່ວມງານ (2015) ໄດ້ຊີ້ໃຫ້ເຫັນວ່າບັນຫາການຄາດຄະເນເປັນສອງປະເພດທີ່ແຕກຕ່າງກັນຫຼາຍແລະນັກວິທະຍາສາດສັງຄົມມີແນວໂນ້ມທີ່ຈະສຸມໃສ່ຫນຶ່ງແລະບໍ່ສົນໃຈກັນ. ຈິນຕະນາການຜູ້ຫນຶ່ງໃນນະໂຍບາຍ, ຂ້າພະເຈົ້າຈະໂທຫານາງ Anna, ຜູ້ທີ່ກໍາລັງປະເຊີນໄພແຫ້ງແລ້ງແລະຕ້ອງຕັດສິນໃຈທີ່ຈະຈ້າງນັກເຕັ້ນລໍາເພື່ອເຕັ້ນລໍາຝົນເພື່ອເພີ່ມໂອກາດຂອງຝົນ. ຜູ້ປະຕິບັດນະໂຍບາຍອີກ, ຂ້າພະເຈົ້າຈະໂທຫານາງ Betty, ຕ້ອງຕັດສິນໃຈວ່າຈະໃຊ້ umbrella ເພື່ອເຮັດວຽກເພື່ອຫຼີກເວັ້ນການເຊົາຢູ່ໃນເຮືອນ. ທັງ Anna ແລະ Betty ສາມາດຕັດສິນໃຈທີ່ດີກວ່າຖ້າພວກເຂົາເຂົ້າໃຈສະພາບອາກາດ, ແຕ່ພວກເຂົາຕ້ອງຮູ້ເລື່ອງຕ່າງໆ. Anna ຕ້ອງເຂົ້າໃຈວ່າຝົນຝົນເປັນຝົນ. Betty, ໃນທາງກົງກັນຂ້າມ, ບໍ່ຈໍາເປັນຕ້ອງເຂົ້າໃຈຫຍັງກ່ຽວກັບເຫດຜົນ; ນາງພຽງແຕ່ຕ້ອງການການຄາດຄະເນທີ່ຖືກຕ້ອງ. ນັກຄົ້ນຄວ້າສັງຄົມມັກຈະມຸ່ງເນັ້ນໃສ່ບັນຫາຕ່າງໆເຊັ່ນວ່າ Anna - ເຊິ່ງ Kleinberg ແລະເພື່ອນຮ່ວມງານເອີ້ນບັນຫານະໂຍບາຍ "ຝົນຕົກຄ້າຍຄືກັນ" - ເພາະວ່າພວກເຂົາມີຄໍາຖາມກ່ຽວກັບເຫດຜົນ. ຄໍາຖາມທີ່ຄ້າຍຄືກັບ Betty ເຊິ່ງ Kleinberg ແລະເພື່ອນຮ່ວມງານເອີ້ນວ່າບັນຫານະໂຍບາຍ "ທີ່ຄ້າຍຄືກັນ" ອາດເປັນສິ່ງສໍາຄັນເຊັ່ນກັນແຕ່ໄດ້ຮັບຄວາມສົນໃຈຈາກນັກຄົ້ນຄວ້າສັງຄົມ.

  • ປະມານການທົດລອງ (ພາກ 2.4.3)

ວາລະສານວາລະສານ ວິທະຍາສາດສາທາລະນະ ໄດ້ມີກອງປະຊຸມກ່ຽວກັບຂໍ້ມູນໃຫຍ່, ການຄິດໄລ່ causal ແລະທິດສະດີທາງການ, ແລະ Clark and Golder (2015) ສະຫຼຸບການປະກອບສ່ວນຂອງແຕ່ລະປະເທດ. ວາລະສານ ວິຊາການຂອງສະຖາບັນວິທະຍາສາດແຫ່ງຊາດຂອງສະຫະລັດອາເມລິກາ ໄດ້ມີການສົນທະນາກ່ຽວກັບຂໍ້ມູນກ່ຽວກັບເຫດຜົນແລະຂໍ້ມູນໃຫຍ່, ແລະ Shiffrin (2016) ສະຫຼຸບການປະກອບສ່ວນແຕ່ລະຄົນ. ສໍາລັບວິທີການຮຽນຮູ້ຂອງເຄື່ອງຈັກທີ່ພະຍາຍາມຊອກຫາແບບທົດລອງແບບທໍາມະຊາດພາຍໃນແຫຼ່ງຂໍ້ມູນໃຫຍ່, ເບິ່ງ Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , ແລະ Sharma, Hofman, and Watts (2016) .

ໃນແງ່ຂອງການທົດລອງທາງທໍາມະຊາດ, Dunning (2012) ສະຫນອງການປິ່ນປົວແນະນໍາ, ໄລຍະຍາວ, ມີຫຼາຍຕົວຢ່າງ. ສໍາລັບຄວາມບໍ່ເຊື່ອຖືຂອງປະສົບການທໍາມະຊາດ, ເບິ່ງ Rosenzweig and Wolpin (2000) (ເສດຖະສາດ) ຫຼື Sekhon and Titiunik (2012) (ວິທະຍາສາດການເມືອງ). Deaton (2010) ແລະ Heckman and Urzúa (2010) ເວົ້າວ່າການສຸມໃສ່ການທົດລອງແບບທໍາມະຊາດສາມາດນໍານັກຄົ້ນຄວ້າເຂົ້າໃຈກ່ຽວກັບຜົນກະທົບທາງລົບທີ່ບໍ່ສໍາຄັນ; Imbens (2010) counters ການໂຕ້ຖຽງເຫຼົ່ານີ້ມີທັດສະ optimistic ຫຼາຍຂອງມູນຄ່າຂອງການທົດລອງທໍາມະຊາດ.

ໃນເວລາທີ່ອະທິບາຍວິທີການນັກຄົ້ນຄວ້າສາມາດໄປຈາກການຄາດຄະເນຜົນກະທົບຂອງການຖືກ drafted ກັບຜົນກະທົບຂອງການຮັບໃຊ້ໄດ້, ຂ້າພະເຈົ້າໄດ້ອະທິບາຍເຕັກນິກທີ່ເອີ້ນວ່າ ຕົວແປເຄື່ອງມື . Imbens and Rubin (2015) , ໃນພາກທີ 23 ແລະ 24 ຂອງພວກເຂົາ, ໃຫ້ຄໍາແນະນໍາແລະນໍາໃຊ້ຕົວເລກຫຼີ້ນເປັນຕົວຢ່າງ. ຜົນກະທົບຂອງການບໍລິການດ້ານການທະຫານກ່ຽວກັບນັກຄອມພິວເຕີແມ່ນບາງຄັ້ງເອີ້ນວ່າຜົນກະທົບທາງລົບ (CAcE), ແລະບາງຄັ້ງມີຜົນກະທົບຕໍ່ການປິ່ນປົວໃນທ້ອງຖິ່ນ (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , ແລະ Bollen (2012) ໃຫ້ຄໍາເຫັນກ່ຽວກັບການນໍາໃຊ້ຕົວແປຕ່າງໆໃນວິທະຍາສາດດ້ານການເມືອງ, ເສດຖະສາດແລະສັງຄົມ, ແລະ Sovey and Green (2011) ໃຫ້ "ລາຍການກວດສອບຂອງຜູ້ອ່ານ" ການປະເມີນຜົນການສຶກສາໂດຍນໍາໃຊ້ຕົວແປເຄື່ອງມື.

ມັນສະແດງໃຫ້ເຫັນວ່າການສະບັບປີ 1970 ບໍ່ໄດ້, ໃນຕົວຈິງຢ່າງສຸ່ມ; ມີຄວາມແຕກຕ່າງເລັກນ້ອຍຈາກການສຸ່ມຢ່າງແທ້ຈິງ (Fienberg 1971) . Berinsky and Chatfield (2015) ໂຕ້ຖຽງວ່າຄວາມແຕກຕ່າງເລັກນ້ອຍນີ້ບໍ່ສໍາຄັນຢ່າງສໍາຄັນແລະປຶກສາຫາລືກ່ຽວກັບຄວາມສໍາຄັນຂອງການນໍາໃຊ້ແບບສຸ່ມ.

ໃນແງ່ຂອງການຈັບຄູ່, ເບິ່ງ Stuart (2010) ສໍາລັບການທົບທວນຄືນທີ່ດີ, ແລະ Sekhon (2009) ສໍາລັບການທົບທວນ pessimistic. ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບການຈັບຄູ່ເປັນປະເພດຂອງ pruning, ເບິ່ງ Ho et al. (2007) ຊອກຫາຄໍາທີ່ສົມບູນແບບດຽວກັນສໍາລັບແຕ່ລະຄົນແມ່ນມັກຈະມີຄວາມຫຍຸ້ງຍາກ, ແລະນີ້ຈະນໍາສະເຫນີຄວາມສັບສົນຈໍານວນຫນຶ່ງ. ຫນ້າທໍາອິດ, ເມື່ອບໍ່ກົງກັນກັບຕົວຈິງ, ນັກຄົ້ນຄວ້າຈໍາເປັນຕ້ອງຕັດສິນໃຈວ່າຈະໄລຍະຫ່າງລະຫວ່າງສອງຫນ່ວຍແລະຖ້າໄລຍະຫ່າງໃດຫນຶ່ງແມ່ນພຽງພໍ. ຄວາມສັບສົນທີສອງຈະເກີດຂື້ນຖ້ານັກວິໄຈຕ້ອງການນໍາໃຊ້ຫຼາຍຄໍາສໍາລັບແຕ່ລະກໍລະນີໃນກຸ່ມປິ່ນປົວ, ເພາະວ່ານີ້ອາດຈະນໍາໄປສູ່ການຄາດຄະເນທີ່ຊັດເຈນກວ່າ. ທັງສອງບັນຫາເຫຼົ່ານີ້, ເຊັ່ນດຽວກັນກັບຄົນອື່ນ, ໄດ້ຖືກອະທິບາຍໄວ້ໃນລາຍລະອຽດໃນບົດ 18 ຂອງ Imbens and Rubin (2015) . ເບິ່ງພາກທີ II ຂອງ ( ??? ) .

ເບິ່ງ Dehejia and Wahba (1999) ສໍາລັບຕົວຢ່າງທີ່ວິທີການຈັບຄູ່ສາມາດຜະລິດປະມານການທີ່ຄ້າຍຄືກັນກັບການທົດລອງຄວບຄຸມແບບສຸ່ມ. ແຕ່ເບິ່ງ Arceneaux, Gerber, and Green (2006) ແລະ Arceneaux, Gerber, and Green (2010) ສໍາລັບຕົວຢ່າງທີ່ວິທີການຈັບຄູ່ບໍ່ສາມາດຜະລິດທົດລອງມາດຕະຖານທົດລອງໄດ້.

Rosenbaum (2015) ແລະ Hernán and Robins (2016) ສະເຫນີຄໍາແນະນໍາອື່ນໆເພື່ອຄົ້ນພົບການປຽບທຽບທີ່ເປັນປະໂຫຍດພາຍໃນແຫຼ່ງຂໍ້ມູນໃຫຍ່.

Powered by Open Review Toolkit

Buy The Book

Image of Bit by Bit cover Princeton University Press Amazon Barnes and Noble IndieBound