2.3.2.1 ไม่สมบูรณ์

ไม่ว่า "บิ๊ก" "ข้อมูลขนาดใหญ่" ของคุณก็อาจไม่ได้มีข้อมูลที่คุณต้องการ

ส่วนใหญ่แหล่งที่มาของข้อมูลขนาดใหญ่จะไม่สมบูรณ์ในความรู้สึกที่ว่าพวกเขาไม่ได้มีข้อมูลที่คุณจะต้องการสำหรับการวิจัยของคุณ นี่คือลักษณะทั่วไปของข้อมูลที่ถูกสร้างขึ้นเพื่อวัตถุประสงค์อื่นนอกเหนือการวิจัย สังคมนักวิทยาศาสตร์หลายคนได้มีประสบการณ์ในการจัดการกับความไม่สมบูรณ์เช่นการสำรวจที่มีอยู่ที่ไม่ได้ถามคำถามที่คุณต้องการ แต่น่าเสียดายที่ปัญหาของความไม่สมบูรณ์มีแนวโน้มที่จะรุนแรงมากขึ้นในการข้อมูลขนาดใหญ่ ในประสบการณ์ของฉันข้อมูลขนาดใหญ่มีแนวโน้มที่จะหายไปสามประเภทของข้อมูลที่เป็นประโยชน์สำหรับการวิจัยทางสังคม: ประชากรพฤติกรรมบนแพลตฟอร์มอื่น ๆ และข้อมูลเพื่อการดำเนินการสร้างทฤษฎี

ทั้งสามของรูปแบบเหล่านี้ไม่สมบูรณ์จะถูกแสดงในการศึกษาโดย Gueorgi Kossinets และดันแคนวัตต์ (2006) เกี่ยวกับวิวัฒนาการของเครือข่ายทางสังคมที่มหาวิทยาลัย Kossinets และวัตต์เริ่มต้นด้วยการบันทึกอีเมลจากมหาวิทยาลัยซึ่งมีข้อมูลที่แม่นยำเกี่ยวกับผู้ที่ส่งอีเมลไปยังผู้ที่สิ่งที่เวลา (นักวิจัยไม่ได้มีการเข้าถึงเนื้อหาของอีเมลที่) บันทึกอีเมลเหล่านี้เสียงเหมือนชุดที่น่าตื่นตาตื่นใจ แต่พวกเขาจะ-แม้จะมีขนาดของพวกเขาและเมล็ด-พื้นฐานที่ไม่สมบูรณ์ ยกตัวอย่างเช่นบันทึกอีเมลที่ไม่รวมข้อมูลเกี่ยวกับลักษณะทางประชากรของนักเรียนเช่นเพศและอายุ นอกจากนี้บันทึกอีเมลที่ไม่รวมถึงข้อมูลเกี่ยวกับการสื่อสารผ่านสื่ออื่น ๆ เช่นโทรศัพท์, ข้อความหรือสนทนาแบบเห็นหน้า สุดท้ายบันทึกอีเมลที่ไม่ได้โดยตรงรวมถึงข้อมูลเกี่ยวกับความสัมพันธ์ที่สร้างทฤษฎีในทฤษฎีที่มีอยู่จำนวนมาก ต่อมาในบทเมื่อฉันพูดคุยเกี่ยวกับกลยุทธ์การวิจัยคุณจะเห็นว่า Kossinets และวัตต์แก้ไขปัญหาเหล​​่านี้

สามชนิดไม่สมบูรณ์ปัญหาของข้อมูลที่ไม่สมบูรณ์เพื่อการดำเนินการสร้างทฤษฎีที่ยากที่สุดในการแก้ปัญหาและในประสบการณ์ของผมก็มักจะถูกมองข้ามโดยบังเอิญโดยนักวิทยาศาสตร์ข้อมูล ประมาณสร้างทฤษฎีความคิดนามธรรมที่นักวิทยาศาสตร์ทางสังคมการศึกษา แต่โชคไม่ดีเหล่านี้สามารถสร้างไม่เคยมีการกำหนดไว้อย่างชัดเจนและวัด ตัวอย่างเช่นสมมติพยายามที่จะสังเกตุการทดสอบการเรียกร้องง่ายเห็นได้ชัดว่าคนที่มีความฉลาดมากขึ้นจะได้รับเงินมากขึ้น เพื่อที่จะทดสอบการเรียกร้องนี้คุณจะต้องวัด "ปัญญา." แต่สิ่งที่เป็นหน่วยสืบราชการลับ? ยกตัวอย่างเช่น Gardner (2011) ที่ถกเถียงกันอยู่ว่ามีจริงแปดรูปแบบที่แตกต่างกันของหน่วยสืบราชการลับ และจะมีวิธีการที่ถูกต้องสามารถวัดรูปแบบใด ๆ เหล่านี้ของปัญญา? แม้จะมีจำนวนมหาศาลของการทำงานโดยนักจิตวิทยา, คำถามเหล่านี้ยังไม่ได้มีคำตอบที่ชัดเจน ดังนั้นแม้จะมีการเรียกร้องที่ค่อนข้างง่ายคนที่มีความฉลาดมากขึ้นมีรายได้เพิ่มเติมเงินอาจจะยากที่จะประเมินสังเกตุเพราะมันยากที่จะเริ่มดำเนินการสร้างทฤษฎีในข้อมูล ตัวอย่างอื่น ๆ ของการสร้างทฤษฎีที่มีความสำคัญ แต่ยากที่จะเริ่มดำเนินการรวมถึง "บรรทัดฐาน", "ทุนทางสังคม" และ "ประชาธิปไตย." นักวิทยาศาสตร์สังคมเรียกการแข่งขันระหว่างโครงสร้างทางทฤษฎีและข้อมูลที่สร้างความถูกต้อง (Cronbach and Meehl 1955) และเป็นรายการสร้างให้เห็นการสร้างความถูกต้องปัญหานี้เป็นปัญหาที่นักวิทยาศาสตร์สังคมได้ต่อสู้กับเป็นเวลานานมากแม้ในขณะที่พวกเขากำลังทำงานกับข้อมูลที่ถูกเก็บรวบรวมเพื่อวัตถุประสงค์ของการวิจัย เมื่อทำงานร่วมกับข้อมูลที่เก็บรวบรวมเพื่อวัตถุประสงค์อื่นนอกเหนือการวิจัยปัญหาการสร้างความถูกต้องมากยิ่งขึ้นที่ท้าทาย (Lazer 2015)

เมื่อคุณได้อ่านรายงานการวิจัย, วิธีที่รวดเร็วและมีประโยชน์อย่างใดอย่างหนึ่งในการประเมินความกังวลเกี่ยวกับความถูกต้องสร้างคือการใช้การเรียกร้องหลักในกระดาษซึ่งมักจะแสดงออกในแง่ของการสร้างและ Re-Express มันในแง่ของข้อมูลที่ใช้ ยกตัวอย่างเช่นพิจารณาการศึกษาทั้งสองสมมุติที่อ้างว่าเพื่อแสดงให้เห็นว่าคนที่ฉลาดมากขึ้นได้รับเงินเพิ่มเติมได้ที่:

  • การศึกษาที่ 1: คนที่ทำคะแนนได้ดีในกา Progressive Matrices ทดสอบการทดสอบการศึกษาดีของปัญญาวิเคราะห์ (Carpenter, Just, and Shell 1990) -have รายได้ที่สูงขึ้นในรายงานการคืนภาษีของพวกเขา
  • การศึกษาที่ 2: คนบนทวิตเตอร์ที่ใช้คำอีกต่อไปมีแนวโน้มที่จะพูดถึงแบรนด์หรู

ในทั้งสองกรณีนักวิจัยสามารถยืนยันว่าพวกเขาได้แสดงให้เห็นว่าคนที่ฉลาดมากขึ้นจะได้รับเงินมากขึ้น แต่ในการศึกษาครั้งแรกโครงสร้างทางทฤษฎีจะ operationalized ดีโดยข้อมูลและในครั้งที่สองพวกเขาไม่ได้ ต่อไปเป็นตัวอย่างนี้แสดงให้เห็นถึงข้อมูลได้มากขึ้นไม่ได้โดยอัตโนมัติแก้ปัญหาเกี่ยวกับการสร้างความถูกต้อง คุณควรสงสัยผลการศึกษาครั้งที่ 2 ไม่ว่าจะเกี่ยวข้องกับล้านทวีตพันล้านทวีตหรือล้านล้านทวีต สำหรับนักวิจัยไม่คุ้นเคยกับความคิดของการสร้างความถูกต้อง, ตารางที่ 2.2 แสดงตัวอย่างบางส่วนของการศึกษาที่มี operationalized สร้างทฤษฎีโดยใช้ข้อมูลการติดตามดิจิตอล

ตารางที่ 2.2: ตัวอย่างร่องรอยดิจิตอลที่ใช้เป็นมาตรการของแนวคิดทฤษฎีนามธรรมมากขึ้น นักวิทยาศาสตร์สังคมเรียกสิ่งนี้ว่าถูกต้องตรงกับการสร้างและมันเป็นความท้าทายที่สำคัญที่มีการใช้แหล่งข้อมูลขนาดใหญ่สำหรับการวิจัยทางสังคม (Lazer 2015)
ร่องรอยดิจิตอล สร้างทฤษฎี การอ้างอิง
บันทึกอีเมลจากมหาวิทยาลัย (meta ข้อมูลเท่านั้น) ความสัมพันธ์ทางสังคม Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
โพสต์สื่อสังคมบน Weibo ส่วนร่วมของพลเมือง Zhang (2016)
บันทึกอีเมลจาก บริษัท (meta ข้อมูลและข้อความที่สมบูรณ์) พอดีทางวัฒนธรรมในองค์กร Goldberg et al. (2015)

แม้ว่าปัญหาของข้อมูลที่ไม่สมบูรณ์สำหรับการสร้างทฤษฎี operationalizing สวยยากที่จะแก้ปัญหามีสามแก้ปัญหาร่วมกันในการแก้ไขปัญหาของข้อมูลประชากรไม่สมบูรณ์และข้อมูลที่ไม่สมบูรณ์ในลักษณะการทำงานบนแพลตฟอร์มอื่น ๆ ครั้งแรกคือการจริงในการเก็บรวบรวมข้อมูลที่คุณต้องการ; ฉันจะบอกคุณเกี่ยวกับตัวอย่างที่อยู่ในบทที่ 3 เมื่อฉันบอกคุณเกี่ยวกับการสำรวจ แต่น่าเสียดายที่ชนิดของการเก็บรวบรวมข้อมูลเป็นไปไม่ได้เสมอ วิธีการแก้ปัญหาหลักที่สองคือการทำในสิ่งที่นักวิทยาศาสตร์เรียกข้อมูลการอนุมานใช้แอตทริบิวต์และสิ่งที่นักวิทยาศาสตร์สังคมเรียกใส่ร้าย ในวิธีการนี​​้นักวิจัยใช้ข้อมูลที่พวกเขาได้ในบางคนเพื่อสรุปคุณลักษณะของคนอื่น ๆ ที่สามเป็นไปได้แก้ปัญหาหนึ่งที่ใช้โดย Kossinets และวัตต์คือการรวมแหล่งข้อมูลหลาย ๆ กระบวนการนี้บางครั้งเรียกว่าการควบรวมกิจการหรือบันทึกการเชื่อมโยง อุปมาโปรดของฉันสำหรับกระบวนการนี้ถูกเสนอในย่อหน้าแรกของกระดาษแรกที่เคยเขียนไว้ในบันทึกการเชื่อมโยง (Dunn 1946) :

"คนที่อยู่ในโลกในแต่ละสร้างหนังสือของชีวิต หนังสือเล่มนี้เริ่มต้นด้วยการเกิดและจบลงด้วยความตาย หน้าเว็บของตนที่ทำขึ้นจากบันทึกของเหตุการณ์ที่เกิดขึ้นในชีวิตของหลักการ บันทึกการเชื่อมโยงเป็นชื่อที่กำหนดให้กระบวนการของการรวบรวมหน้าของหนังสือเล่มนี้เข้าไปในปริมาณที่. "

ข้อความนี้ถูกเขียนขึ้นในปี 1946 และในเวลาที่ผู้คนคิดว่าหนังสือแห่งชีวิตอาจรวมถึงเหตุการณ์ในชีวิตที่สำคัญ ๆ เช่นการเกิดการแต่งงานการหย่าร้างและการเสียชีวิต อย่างไรก็ตามในขณะนี้ว่าข้อมูลมากเกี่ยวกับคนที่จะถูกบันทึกไว้ในหนังสือแห่งชีวิตอาจจะเป็นภาพที่มีรายละเอียดอย่างไม่น่าเชื่อหากหน้าเว็บที่แตกต่างกัน (เช่นร่องรอยดิจิตอลของเรา) สามารถผูกพันกัน หนังสือแห่งชีวิตนี้อาจจะเป็นทรัพยากรที่ดีสำหรับนักวิจัย แต่หนังสือแห่งชีวิตนอกจากนี้ยังอาจจะเรียกว่าฐานข้อมูลของการทำลาย (Ohm 2010) ซึ่งสามารถนำมาใช้สำหรับทุกชนิดของวัตถุประสงค์ที่ผิดจรรยาบรรณตามที่อธิบายเพิ่มเติมด้านล่างเมื่อฉันพูดคุยเกี่ยวกับธรรมชาติที่สำคัญของข้อมูลที่เก็บรวบรวมจากแหล่งข้อมูลขนาดใหญ่ด้านล่าง และในบทที่ 6 (จริยธรรม)